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Avant-propos 


L'information n'est pas la connaissance. À mesure que se développent 
les technologies permettant de stocker, d'échanger de l'information et d'y 
accéder, la question de l'analyse et de la synthèse de ces informations de- 
vient essentielle. Le développement de technologies facilitant le passage de 
l'information à la connaissance est déterminant pour que la société annon- 
cée de l'information ne soit pas en réalité la société du bruit. 

Deux types d'approches connaissent donc tout naturellement un inté- 
rêt croissant. Les méthodes statistiques tout d'abord, parce qu'elles sont 
précisément conçues pour permettre le passage de l'observation à la loi, 
fût-elle loi de probabilité. Les technologies de l'intelligence artificielle en- 
suite, parce que leur vocation est de permettre aux ordinateurs de traiter 
de la connaissance plutôt que de l'information. 

Les réseaux bayésiens sont le résultat d'une convergence entre ces deux 
disciplines et constituent aujourd'hui l'un des formalismes les plus com- 
plets et les plus cohérents pour l'acquisition, la représentation et l'utilisa- 
tion de connaissances par des ordinateurs. Encore du domaine de la re- 
cherche au début des années 1990, cette technologie connaît de plus en plus 
d'applications, depuis le contrôle de véhicules autonomes à la modélisation 
des risques opérationnels, en passant par le data mining ou la localisation 
des gènes. 

Les réseaux bayésiens, qui doivent leur nom aux travaux de Thomas 
Bayes au XVIII e siècle sur la théorie des probabilités, sont le résultat de 
recherches effectuées dans les années 1980, dues à J. Pearl à UCLA et à une 
équipe de recherche danoise à l'université de Aalborg. 

L'objectif initial de ces travaux était d'intégrer la notion d'incertitude 
dans les systèmes experts. Les chercheurs se sont rapidement aperçus que 
la construction d'un système expert nécessitait presque toujours la prise en 
compte de l'incertitude dans le raisonnement. 

En effet, dans la plupart des domaines complexes, un expert humain 
est capable de porter un jugement sur une situation, même en l'absence de 
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toutes les données nécessaires. En médecine, par exemple, une même com- 
binaison de symptômes peut être observée dans différentes pathologies. 

Il n'y a donc pas de règle stricte qui permette de passer systématique- 
ment d'un ensemble d'observations à un diagnostic. De plus, les infor- 
mations pertinentes ne sont pas toujours observables. Pour que des sys- 
tèmes experts puissent être utilisés dans de tels domaines, il faut donc 
qu'ils soient capables de raisonner sur des faits et des règles incertains. 
Dans le cadre des systèmes experts, les réseaux bayésiens constituent une 
approche possible pour intégrer l'incertitude dans le raisonnement. D'autres 
méthodes existent, mais les réseaux bayésiens présentent l'avantage d'être 
une approche quantitative. 

D'un autre côté, imaginons à présent un statisticien, qui s'efforce d'ana- 
lyser un tableau de mesures de plusieurs variables sur une population don- 
née. Il va pour cela essayer de démêler les relations pertinentes entre les 
variables, les dépendances ou indépendances entre plusieurs groupes de 
variables. L'utilisation de réseaux bayésiens va lui permettre d'extraire de 
ce tableau une représentation compacte, sans perte d'information, à partir 
de laquelle il va être beaucoup plus facile de raisonner. 

Le lien entre ces deux problématiques est clairement celui de la connais- 
sance. D'un côté, un expert dispose d'une connaissance présentant cer- 
taines incertitudes. Pour la formaliser, il va utiliser des descriptions cau- 
sales : A a une influence sur B ; en général, si B est observé, il y a de fortes 
chances que C se produise, etc. Pour rendre cette connaissance opération- 
nelle, il lui faut quantifier ses incertitudes, c'est-à-dire les convictions plus 
ou moins précises que l'expert a des liens entre les faits. 

D'un autre côté, un ensemble de données contient lui aussi de la connais- 
sance, mais qui n'est pas directement accessible à un analyste, car elle est 
noyée dans les chiffres. Pour rendre cette connaissance interprétable, il faut 
la transformer en modèle de causalité, mettant en évidence les liens entre les 
variables observées. 

C'est grâce à la notion mathématique de probabilité que les réseaux 
bayésiens vont permettre de résoudre ces deux problèmes duaux : trans- 
former en chiffres une connaissance subjective, et transformer en modèle 
interprétable une connaissance contenue dans des chiffres. 

L'expert formalise sa connaissance sous forme de modèle de causalité, 
indiquant les liens entre les variables. Cette description graphique est trans- 
formée en une loi de probabilité équivalente. Cette loi de probabilité per- 
met de faire des calculs, et donc en particulier des raisonnements prenant 
en compte des aspects incertains. 

Réciproquement, à partir des données, on va mettre en évidence des 
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propriétés (indépendances, causalités) de la relation entre les différentes 
variables observées. 

Cette relation est transformée en graphe de causalités, qui peut alors 
être lu et interprété par un analyste, beaucoup plus facilement que les don- 
nées initiales. Ces deux opérations ne sont possibles que grâce aux trois 
propriétés suivantes : 

• Les probabilités subjectives (celles que l'expert utilise pour décrire les 
liens entre les variables) sont assimilables à des probabilités mathé- 
matiques (Hl). 

• Les fréquences observées (tableau de mesures) sont assimilables à des 
probabilités mathématiques (H2). 

• Le graphe de causalités est une représentation fidèle d'une loi de pro- 
babilité sous-jacente : il est alors possible de raisonner sur le graphe 
sans revenir aux chiffres. 

Les deux premières propriétés sont des hypothèses de travail, et leur 
discussion peut être considérée comme relevant de la philosophie. La der- 
nière, en revanche, est un résultat très important, qui garantit que tout ce 
qui peut être déduit du graphe est également vrai dans la distribution de 
probabilité sous-jacente. Ce résultat sera étudié en détail et démontré dans 
la suite du livre. 

Ce livre est organisé de la façon suivante. 

La première partie. Introduction aux réseaux bayésiens, est une présenta- 
tion intuitive de la construction des réseaux bayésiens à partir de quelques 
exemples simples. Dans cette partie nous abordons également l'étude des 
algorithmes, mais là encore de façon relativement intuitive. Cette partie se 
conclut par des exercices simples, qui permettent de manipuler les concepts 
introduits, ou encore de prendre en main un outil informatique de réseaux 
bayésiens. 

La deuxième partie. Cadre théorique et algorithmes, présente une forma- 
lisation complète des réseaux bayésiens, ainsi que l'étude détaillée des al- 
gorithmes les plus importants, aussi bien pour l'utilisation de ces modèles 
(inférence) que pour leur construction à partir de données (apprentissage). 
Cette partie est très technique, car nous avons choisi de démontrer certains 
des résultats annoncés. Le lecteur rebuté par les longs développements 
techniques pourra survoler cette partie. 

Dans la troisième partie. Méthodologie de mise en œuvre et études de cas, 
nous abordons l'aspect pratique de cette technologie. Le premier chapitre 
de cette partie, le chapitre 7 page 187, est consacré aux aspects méthodo- 
logiques en tentant de répondre aux trois questions suivantes : pourquoi, 
où (dans quelles applications), et comment utiliser des réseaux bayésiens ? 
Nous présentons ensuite plusieurs exemples d'application ayant fait l'objet 
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de publications, suivis de six études de cas réelles, auxquelles nous avons 
directement participé. 

Un ensemble d'annexes ( Théorie des graphes, Probabilités, et Outils) ainsi 
qu'une bibliographie et un index complètent le livre. 

Écrit par une équipe combinant les points de vue de l'enseignant, du 
chercheur, de l'ingénieur, et de l'utilisateur final, ce livre s'adresse à un 
large public. 

Il s'adresse aux ingénieurs et décideurs dans l'un des nombreux do- 
maines d'application des réseaux bayésiens : santé, industrie, banque, mar- 
keting, informatique, défense, etc. Pour ce profil de lecteur, nous recom- 
mandons surtout une lecture de la première partie, éventuellement en omet- 
tant le chapitre 3 ( Exercices ), et de la troisième partie. Cette première lecture 
leur permettra de se faire rapidement une idée sur les possibilités d'utili- 
sation de cette technique dans leur domaine, et leur offrira des points de 
comparaison avec d'autres techniques. 

L'ouvrage s'adresse également aux étudiants et chercheurs du niveau 
deuxième ou troisième cycle dans plusieurs disciplines : statistiques, ma- 
thématiques de la décision, analyse de risque, intelligence artificielle, ainsi 
qu'à tous les élèves ingénieurs. Ils y trouveront une présentation intuitive 
des réseaux bayésiens, un développement théorique complet sur les algo- 
rithmes les plus récents, ainsi qu'une base pour des investigations complé- 
mentaires. Les exercices présentés dans la première partie leur permettront 
d'évaluer leur compréhension des concepts et algorithmes. Pour ce pro- 
fil de lecteur, nous recommandons une lecture progressive en fonction du 
niveau d'approfondissement requis. Pour une prise de contact et une com- 
préhension des concepts de base, la première partie, en incluant les exer- 
cices, pourra être suffisante. Pour une étude plus poussée des algorithmes, 
la deuxième partie sera un compagnon utile des notes de cours, ou un bon 
point de départ pour des recherches personnelles. Enfin, pour développer 
un projet applicatif basé sur cette technique, les exemples et études de cas 
présentés dans la troisième partie seront une bonne source d'inspiration. 
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Chapitre 1 


Approche intuitive 


Les réseaux bayésiens reposent sur un formalisme basé sur les théo- 
ries des probabilités et des graphes. Il est cependant possible et utile de se 
rendre compte des idées et des notions de manière intuitive, avant d'abor- 
der ce formalisme. C'est ce qui est proposé dans ce chapitre et le suivant. 


1.1 Une représentation graphique de la causalité 

La représentation graphique la plus intuitive de l'influence d'un évé- 
nement, d'un fait, ou d'une variable sur une autre, est probablement de 
représenter la causalité en reliant la cause à l'effet par une flèche orientée. 



Supposons que A et B soient des événements, qui peuvent être observés 
ou non, vrais ou faux. 

Du point de vue du sens commun, le graphe ci-dessus peut se lire comme 
ceci : la connaissance que j'ai de A détermine la connaissance que j'ai de B . 
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1.1. Une représentation graphique de la causalité 


Cette détermination peut être stricte, c'est-à-dire que, sachant avec cer- 
titude que A est vrai, je peux en déduire B avec certitude. Il peut aussi 
s'agir d'une simple influence. Dans ce cas, cela signifie que, si je connais A 
avec certitude, mon opinion sur B est modifiée, sans que je puisse toutefois 
affirmer si B est vrai ou faux. 

Avant d'aller plus loin, il est important de comprendre que, bien que la 
flèche soit orientée de A vers B, elle peut cependant fonctionner dans les 
deux sens, et ce même si la relation causale est stricte. 

Supposons, par exemple, que la relation causale soit l'implication lo- 
gique A B. Cette relation signifie que si A est vrai, B l'est également. Si 
A est faux, B peut être vrai ou faux. 


A 

B 

V 

V 

F 

V 

F 

F 


La table ci-dessus représente les configurations possibles de A et B dans 
le cas où la relation causale A => B est vraie. Cette table nous permet d'af- 
firmer que, si B est faux, A l'est également. 

Du point de vue de la logique, il s'agit simplement de la contraposée 
de A => B. Du point de vue de la causalité, cela montre qu'une relation 
causale, donc orientée, est réversible de l'effet vers la cause, même si elle 
ne l'est que partiellement. En d'autres termes : 


S'il existe une relation causale de A vers B, toute information sur A 
peut modifier la connaissance que fai de B, et, réciproquement, toute 
information sur B peut modifier la connaissance que j'ai de A. 


En présence d'un graphe plus complexe, il est donc essentiel de conser- 
ver à l'esprit que l'information ne circule pas seulement dans le sens des 
flèches. 


1.1.1 Circulation de l'information dans un graphe causal 

Nous allons à présent étudier de plus près comment l'information cir- 
cule au sein d'un graphe causal. 

Pour l'instant, nous continuons à fonder cette discussion sur une notion 
très intuitive de ce qu'est un graphe causal : il s'agit simplement de relier 
des « causes » et des « effets » par des flèches orientées. 

0 
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► Un exemple 

Pour cela, nous allons utiliser un exemple, extrêmement classique dans 
la littérature sur les réseaux bayésiens, initialement extrait de Pearl [Pea88a], 
et repris dans [Jen96]. 

Ce matin-là, alors que le temps est clair et sec, M. Holmes sort de sa 
maison. Il s'aperçoit que la pelouse de son jardin est humide. Il se demande 
alors s'il a plu pendant la nuit, ou s'il a simplement oublié de débrancher 
son arroseur automatique. Il jette alors un coup d'œil à la pelouse de son 
voisin, M. Watson, et s'aperçoit qu'elle est également humide. Il en déduit 
alors qu'il a probablement plu, et il décide de partir au travail sans vérifier 
son arroseur automatique. 

La représentation graphique du modèle causal utilisé par M. Holmes est 
la suivante : 



A 

J’ai oublié de débrancher mon arroseur automatique. 

P 

Il a plu pendant cette nuit. 

I 

L’herbe de mon jardin est humide. 

W 

L’herbe du jardin de M. Watson est humide. 


La lecture du graphe est bien conforme à l'intuition : 


13 



S’il a plu pendant la nuit, l’herbe de mon jardin est humide. 




S’il a plu pendant la nuit, l’herbe du jardin de M. Watson 
est également humide. 

© 



Si j’ai oublié de débrancher mon arroseur automatique, 
l’herbe de mon jardin est humide. 


Comment ce graphe est-il utilisé ici pour raisonner? Autrement dit, 
comment l 'information J, dont on sait qu'elle est vraie, est-elle utilisée ? 

Tout d'abord, le modèle nous indique que I a dû être causé soit par A, 
soit par P. 


© 
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Faute d'information complémentaire, les deux causes sont a priori éga- 
lement 1 plausibles 2 . 

Le fait que W soit également vrai renforce la croyance en P. 

Dans cet exemple simple, on voit que l'information a circulé unique- 
ment dans le sens effet — > cause. 


(1) 



Aw) 

La connaissance de J renforce la croyance en l’une 
des deux causes A ou P. 

(2) 




La connaissance de W augmente la croyance en 
la cause P. Par rapport à l’état (1) précédent , la 
cause A devient moins plausible. 


Conclusion 

Pour prendre un raccourci, M. Holmes a déduit que son arroseur au- 
tomatique était à l'arrêt à partir du fait que la pelouse de son voisin était 
humide ! 

Cet exemple simple, sur lequel nous n'avons utilisé que du raisonne- 
ment de sens commun, nous montre bien que l'information peut suivre des 
chemins peu intuitifs lorsqu'elle se propage dans un réseau de causalités. 


► Le cas général 

Nous allons maintenant étudier la circulation de l'information dans un 
graphe causal du point de vue général. Dans l'exemple ci-dessus, nous 
avons vu qu'une information certaine se propage dans un graphe en modi- 
fiant les croyances que nous avons des autres faits. Nous allons étudier quels 
chemins cette information peut prendre à l'intérieur d'un graphe. Nous al- 
lons considérer les trois cas suivants, qui décrivent l'ensemble des situa- 
tions possibles faisant intervenir trois événements. 


'En réalité, cela dépend, bien sûr, de la connaissance a priori que M. Holmes a de la 
météorologie de sa région. Ici, nous supposons qu'il n'en a aucune. 

z Nous utilisons volontairement le mot plausible, au lieu de probable, qui sera utilisé 
pour la formalisation du raisonnement. 


© 
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Connexion convergente : 

X et Y causent Z. 


Connexion en série : 

X cause Z, Z cause Y (ou le cas symétrique). 

©*-©-*© 

Connexion divergente : 

Z cause X et Y. 


Pour chacun de ces cas, la figure 1.1 ci-après présente une synthèse 
des conditions de circulation de l'information entre X à Y, en considérant 
chaque fois un petit exemple. 


1.1.2 D-séparation (blocage) 

Résumons : nous savons maintenant exactement dans quelles condi- 
tions une information peut circuler à l'intérieur d'un graphe. On voit qu'il 
ne s'agit pas de suivre le sens des flèches ! 

Supposons que nous disposions d'un graphe relativement complexe, 
pour lequel nous disposons déjà d'un certain nombre d'informations (i.e 
certaines variables sont déjà connues). Si nous apprenons maintenant une 
autre information, devons-nous réviser notre opinion sur l'ensemble des 
autres nœuds de ce graphe ? 

Pour répondre à cette question, nous pouvons essayer de synthétiser 
l'étude de ces circuits d'informations en une règle appelée d-séparation, qui 
décrit dans quelles conditions l'information entre un nœud X et un nœud 
Y est bloquée. 

On dira que X et Y sont d-séparé s par Z si pour tous les chemins entre X 
et Y, l'une au moins des deux conditions suivantes est vérifiée : 

• Le chemin converge en un nœud W, tel que W f Z, et W n'est pas 
une cause directe de Z. 

• Le chemin passe par Z, et est soit divergent, soit en série au nœud Z. 


Exemple 

(« X est d-séparé de Y par Z » est noté (X | Z | Y)) 

© 
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Graphe 

Propriété 

Exemple 


L’information ne peut circuler 
de X à Y que si Z est connu. 

X = tremblement de terre 

Y = cambriolage 

Z = alarme 

Le fait qu’il y ait eu un tremble- 
ment de terre dans le voisinage (X) 
n’a aucun lien a priori avec le fait 
que ma maison ait été cambrio- 
lée (Y). En revanche, si mon alarme 
s'est déclenchée (Z), j’ai tendance à 
croire que je viens d’être cambriolé 
(Y). Si maintenant j'apprends qu’il 
vient d'y avoir un tremblement de 
terre (X) dans le voisinage, je suis 
rassuré sur l'éventualité d'un cam- 
briolage (Y). 

®-hSM2> 

L’information ne peut circuler 
de X à Y que si Z n’est pas 
connu. 

X = ensoleillement 

Y = prix du blé 

Z = récolte 

Si la saison a été ensoleillée (X), la 
récolte sera abondante (Z). Si la ré- 
colte est abondante, le prix du blé 
est bas (Y). Si je sais déjà que la 



récolte a été abondante (Z), le fait 
de connaître l'ensoleillement (X) ne 
m’apprend plus rien sur le prix du 
blé (Y). 


L’information ne peut circuler 
de X à Y que si Z n’est pas 
connu. 

X = la pelouse de mon jardin est hu- 
mide 

Y = la pelouse de mon voisin est hu- 
mide 

Z = il a plu cette nuit 

Si la pelouse de mon jardin est hu- 
mide (X), j’ai tendance à croire qu’il 
a plu cette nuit (Z), et donc que la 
pelouse de mon voisin sera aussi 
humide (Y). Si en revanche je sais 
qu’il a plu cette nuit (Z), je peux affir- 
mer que la pelouse du jardin de mon 
voisin sera humide (Y), et l’informa- 
tion que je peux avoir sur l’état de 
ma propre pelouse (X) n’y change 
rien. 




TAB. 1.1 Circulation de l'information dans un graphe causal 
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(A\B\D) 

(T) 

Le chemin A-B-D est en série en B 


(A — > B — > D). 


Le chemin A-C-D est convergent en C 


(A — > C <— D). 

(ci (F') 

{A | D | E) 


Tous les chemins de A à E passent par D. 


Le chemin A-B-D-E est en série en D 


(B — > D — r E). 


Le chemin A-C-D-E est divergent en D 


(C <— D — > E). 


Essayons de comprendre intuitivement cette définition. 

Supposons que Z soit la seule information connue dans le graphe. Sup- 
posons maintenant que j'apprenne la valeur de X. Si X et Y sont d-séparés 
par Z, que se passe-t-il ? 

Considérons un chemin entre X et Y. Soit ce chemin converge en un 
point W (— » W <—), tel que W / Z, et W n'est pas une cause directe de Z. 
Donc, par hypothèse (Z est la seule information connue dans le graphe), 
aucune information n'est disponible sur W. D'après notre étude ci-dessus, 
ce chemin est donc bloqué. 

Sinon, ce chemin passe par Z, et on a soit — > Z — », soit <— Z — ». Toujours 
d'après notre étude, comme Z est connu, l'information ne peut circuler à 
travers Z. Tous ces chemins sont donc bloqués. 

Donc si X et Y sont d-séparés par Z, et si Z est la seule information 
connue dans le graphe, une nouvelle information sur X ne modifie en rien 
mon opinion sur Y. 

Extension 

Cette définition peut être étendue facilement au cas où Z 3 est un en- 
semble de nœuds. On dira alors que X et Y sont d-séparés par Z, si pour 
tous les chemins entre X et Y, Tune au moins des deux conditions suivantes 
est vérifiée : 

• Le chemin converge en un nœud W, tel que W 0 Z , et W n'est pas 
une cause directe d'un élément de Z. 

• Le chemin passe par un nœud Z € Z, et est soit divergent, soit en 
série en ce nœud. 

Enfin, elle peut être étendue au cas où X et Y sont des ensembles de 
nœuds. On dira alors que X et Y sont d-séparés par Z, si tous les éléments 
de X sont d-séparés par Z de tous les éléments de Y. 


3 on note Z un nœud et Z un ensemble de nœuds. 

® 
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Discussion 

Même si elle n'est pas facile à appréhender immédiatement dans tous 
ses détails, on comprend que cette notion de d-séparation est très impor- 
tante dans l'étude des graphes de causalités. 

Elle permet en effet de préciser dans quelles conditions une informa- 
tion peut être traitée localement, sans perturber l'ensemble du graphe. La 
meilleure perception intuitive que l'on peut en avoir est celle du blocage. 
Le fait que X et Y sont d-séparés par Z signifie que Z bloque le passage de 
l'information entre X et Y, dans le cas où Z est la seule information connue 
dans le graphe. 

Il est important également de comprendre que, si la d-séparation est une 
propriété purement graphique, c'est-à-dire uniquement liée au graphe, son 
utilisation est liée à la sémantique de causalité que l'on attache à ce graphe, 
comme nous le voyons ci-après (une information connue est indiquée dans 
un cercle grisé). 

A est d-séparé de D par B. 

Comme B est la seule information connue 
dans ce graphe, une connaissance sur A ne 
modifiera en rien ma connaissance sur D : le 
circuit d’information de A à D est bloqué par B. 


A est toujours d-séparé de D par B : la 
d-séparation est une propriété du graphe. 
Cependant, comme C est connu maintenant, 
un chemin de circulation d’information est 
ouvert de A à D. 

A n’est pas d-séparé de D par B et C. 




1.1.3 Conclusion 

À partir d'une représentation graphique de la causalité fondée unique- 
ment sur le sens commun, nous venons de montrer que (1) l'information ne 
circule pas uniquement dans le sens cause-^ejfet, (2) la circulation de l'infor- 
mation suit cependant des règles bien précises, et (3) une combinaison de 
ces règles permet de restreindre l'impact d'une information à l'intérieur du 
graphe. 

Nous allons à présent présenter une formalisation de cette représenta- 
tion, qui permet de quantifier toutes les notions que nous avons évoquées 
ci-dessus, tout en conservant une parfaite cohérence avec le sens commun. 

(hT) 
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1.2 Une représentation probabiliste associée 

La formalisation des notions intuitives (causalité, information) utilisées 
ci-après va reposer sur la notion mathématique de probabilité. Nous rap- 
pelons en annexe les bases axiomatiques de la théorie des probabilités. 

Nous reprenons tout d'abord les exemples que nous venons d'étudier. 
Nous montrons alors que, en assimilant ce que nous avons appelé la croyance 
en un fait, ou la plausibilité d'un fait, à une probabilité mathématique, nous 
pouvons retrouver quantitativement les résultats que nous avions établis 
qualitativement plus haut. 

Ensuite, nous présentons le résultat le plus important de cette formali- 
sation, à savoir l'équivalence entre la représentation graphique et la repré- 
sentation probabiliste. 

1.2.1 Transposition 

Avant de reprendre les différents exemples, nous donnons ci-après les 
règles utilisées pour les transposer en termes de probabilités (les termes 
utilisés ici sont définis dans l'annexe B page 347). Ces règles permettent 
simplement de formaliser la transposition intuitive qui pourrait être effec- 
tuée. Les règles de transposition complètes sont données en annexe. 


Définition des variables 

Si le graphe causal initial contient les nœuds {A, B} pouvant prendre cha- 
cun la valeur « vrai » ou « faux », on définit l 'espace probabilisé E constitué 
des couples suivants : 

b = {(A = V, B = V), (A = V, B = F), (A = F, B = V), (A = F, B = F)} 

Chaque couple est appelé un événement. La variable A est alors une va- 
riable aléatoire sur E, définie de la façon suivante (voir annexe B page 347) : 

r A((A = V, B = V)) = 1 
J A((A = V, B = F)) = 1 
1 A((A = F, B = V)) = 0 
{ A((A = F,B = F)) = 0 

L'ensemble E = {(A = V, B = V) , ( A = V, B = F)}, qui est l'image réciproque 
de 1 par l'application A est noté simplement A = V. La variable aléatoire B 
est définie de façon similaire. 

Enfin rappelons que la notation abrégée : 

p(A | B) = p(A) 

QD 
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s'interprétant comme A est indépendant de B, signifie en réalité : 

f p(A = V | B = V) = p(A = V) 

I p(A = V | B = F) = p(A = V) 

1 p(A = F | B = V) = p(A = F) 

[ p(A = F|B = F)=p(A = F) 

Si le graphie comporte plus de variables, ou plus d'états, les définitions sont 
faites de façon analogue. 

On note donc de la même façon le nœud, la variable, et la variable aléatoire 
associée. 


► Définition des probabilités 

Pour compléter la transposition d'un graphe causal en espace probabi- 
lisé, nous devrons également fournir les paramètres suivants (cette règle 
sera justifiée de façon générale plus loin) : 

• Si A n'a aucune cause directe, nous devrons définir p( A), c'est-à-dire 
les deux nombres p(A = V) et p(A = F). 

• Si B a une seule cause directe A, nous devrons définir p (B | A), c'est- 
à-dire les quatre nombres p(B = V | A = V), p(B = V | A = F), 
p(B = F | A = V), p (B = F | A = F). 

• Si C a deux causes directes A et B nous devrons définir p(C | A, B), 
c'est-à-dire les huit nombres : p(C = V | A = V,B = V), p(C = V | 
A = V, B = F), etc. 


Remarque 

Nous supposons que les quantités ci-dessus permettent effectivement 
de définir une probabilité. 


1.2.2 Premier exemple : validité de la formalisation probabiliste 
► Modélisation 

Plaçons-nous de nouveau dans le cas où la variable A cause B au sens 
strict, c'est-à-dire au sens de l'implication logique. 

Dans cet exemple, nous supposons que A et B représentent des événements 
dans le monde de la finance. A est l'événement : « L'annonce des chiffres 

QD 
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du commerce extérieur américain est supérieure aux attentes du marché. ». 
B est l'événement : « Le cours du dollar contre l'euro monte. ». 

Nous considérons que la règle A =/ B est vraie, c'est-à-dire que si l'annonce 
des chiffres du commerce extérieur américain est effectivement supérieure 
aux attentes du marché, le cours du dollar contre l'euro va monter par rap- 
port au cours de la veille. Dans le cas contraire, le cours du dollar va être 
influencé par d'autres causes, et on ne pourra donc rien dire sur son évolu- 
tion. 

Considérons un financier qui rentre de vacances. Il sait que les chiffres du 
commerce extérieur américain ont été publiés hier, mais ne connaît pas la 
valeur numérique qui a été annoncée. Cependant, en consultant le journal 
qu'il vient de prendre en montant dans l'avion, il constate que le dollar a 
enregistré une baisse significative. Que peut-il déduire des chiffres du com- 
merce extérieur américain ? Essayons de formaliser ce problème en termes 
de probabilités. Nous disposons de deux variables A et B, qui peuvent 
prendre toutes les deux les valeurs « vrai » et « faux ». Par ailleurs, nous 
pouvons disposer d'un certain nombre d'éléments quantitatifs sur ces va- 
riables. 


Probabilités a priori 


Événement 

Probabilité 

Commentaire 

A = V 

1/2 

A priori, rien ne me permet de dire que A est plus 
certain que A. J’attribue donc la probabilité 1 /2 
aux deux événements. 

A = F 

1/2 


Probabilités conditionnelles 


B = V | A = V 

1 

J’admets que la règle A B est vraie, donc, si A 
s’est réalisé, la hausse du dollar est certaine. 

B = F | A = V 

0 

B = V | A = F 

1/2 

En revanche, si A ne s’est pas réalisé, je ne peux 
rien dire sur la hausse du dollar. 

B = F | A = F 

1/2 


La question que se pose notre financier de retour de vacances est donc de 
connaître la valeur dep(A = V | B = F). Considérons les événements 
A = V et A = F. Ils vérifient les conditions d'application du théorème de 
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Bayes (voir annexe B page 347), puisque : 



Nous pouvons donc écrire : 


p(A = V | B = F) 


p(B = F | A = V).p(A = V) 


p(B = F | A = V).p(A = V) + p(B = F | A = F).p(A = F) 


Donc : 


p(A = V | B = F) = 0 


En nous replaçant du point de vue qualitatif, notre financier déduit 
donc que les chiffres du commerce extérieur américain ont certainement 
été inférieurs aux attentes du marché. 

Bien entendu, ce résultat n'a rien de surprenant, puisque nous pouvions 
le déduire directement de la règle logique A => B. Si cette règle est vraie, 
et si le dollar a baissé, il n'est logiquement pas possible que le chiffre du 
commerce extérieur américain ait été bon. 

Ce résultat nous permet cependant de valider, ou plutôt de ne pas in- 
valider, la transposition de notre relation causale en termes de probabilités. 
Allons à présent un peu plus loin. 

Considérons que le financier, qui n'a pas encore retrouvé toute sa concen- 
tration après de longues vacances, s'aperçoive maintenant qu'il s'est trompé 
de ligne, et qu'il a consulté le cours de la veille. Le cours du jour présente 
en réalité une forte hausse par rapport à la veille ! 

Du point de vue des probabilités, nous savons maintenant que B = V, 
et il nous faut calculer p(A = V | B = V). Les conditions d'application du 
théorème de Bayes étant toujours vérifiées, nous pouvons écrire : 


p(B = V | A = V).p(A = V) 


p(A = V | B = V) 


p(B = V | A = V).p(A = V) +p(B = V | A = F).p(A = F) 


c'est-à-dire : 


p(A = V| B =V) = j 


Notre financier est donc amené à réviser son jugement, et il est mainte- 
nant plutôt convaincu que les chiffres du commerce extérieur ont été bons. 

► Discussion 

Nous devons maintenant analyser ce premier exemple de façon très 
précise, pour examiner les allers et retours que nous avons effectués entre 


QD 



Chapitre 1 - Approche intuitive 


qualitatif et quantitatif, entre croyances subjectives et probabilités mathé- 
matiques. 


Formalisation 

Tout d'abord, nous avons construit un espace probabilisé. 

Pour cela, nous avons défini des événements, et nous avons également 
défini des probabilités pour certains d'entre eux : 

p(A - V) — p(A F) , 1 

Cette quantification est la plus discutable, puisqu'elle n'est fondée sur 
rien d'objectif. Cependant, elle traduit le fait que le financier, rentrant de 
vacances et complètement déconnecté de son environnement, n'a aucune 
raison a priori d'attribuer une croyance plus forte à un événement plutôt 
qu'à son contraire. Ensuite nous avons traduit la connaissance certaine dont 
nous disposions. Nous avons admis pour cet exemple que la relation entre 
A et B était une relation causale stricte, c'est-à-dire A =/ B. La connaissance 
que nous donne cette relation s'écrit : 



A = V 

A = F 

B = V 

nécessaire 

possible 

B = F 

impossible 

possible 


Nous avons traduit cette règle en termes de probabilités conditionnelles. 
Là encore, en l'absence d'information, nous avons choisi d'attribuer la pro- 
babilité 1/2 à deux événements complémentaires. 

La table ci-dessus devient alors : 



A = V 

A = F 

B = V 

1 

1/2 

B = F 

0 

1/2 


Nous avons enfin exprimé l'interrogation du financier (quelle a bien pu 
être l'annonce du commerce extérieur américain ?) en termes de probabili- 
tés : quelle est la valeur de p(A = V | B = F], puis de p(A = V | B = V). 


Calcul 

Une fois cette formalisation effectuée, le théorème de Bayes nous donne 
immédiatement les probabilités recherchées. 


(HD 
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Modèle causal, faits 



B est vrai 


( raisonnement^ 
qualitatif 


Conclusion 


A est « sans doute » vrai 



Espace probabilisé 


FlG. 1.1 Transposition probabiliste d'un graphe causal 


Interprétation du résultat 

Le résultat obtenu, nous revenons maintenant dans le domaine quali- 
tatif, et nous pouvons interpréter le résultat en termes de conviction : les 
chiffres du commerce extérieur ont sans doute été bons. 

Sur cet exemple, nous constatons que le passage par la formalisation 
en termes de probabilités nous a conduit à des conclusions conformes au 
raisonnement de sens commun. 

En d'autres termes, le raisonnement qualitatif pur conduit à la même 
conclusion qualitative que le cycle : formalisation, calculs, interprétation. 

Il est clair que cette équivalence ne peut être prouvée. Il s'agit pour 
nous d'admettre que les opinions, les croyances ou tout autre appellation 
de la conviction que nous pouvons avoir d'un fait peuvent être fidèlement 
représentées par des probabilités, et que les calculs effectués au sein du 
formalisme des probabilités ne nous conduiront jamais à des conclusions 
choquantes du point de vue de l'intuition. 

QU 

www.frenchpdf.com 


Chapitre 1 - Approche intuitive 


Remarque 

Il existe un débat théorique, presque philosophique, sur la sémantique 
à associer aux probabilités. Trois approches sont, en général, considérées. 
L'approche fréquentiste est fondée sur le fait qu'une probabilité est définie 
par la limite d'une fréquence observée. L'approche objectiviste considère 
que la probabilité est une propriété des objets du monde réel, et qu'elle 
mesure leur propension à avoir tel ou tel comportement. Enfin, l'approche 
subjectiviste considère que la probabilité mesure la croyance qu'un indi- 
vidu attribue à la survenance d'un fait donné. Dans les réseaux bayésiens, 
considérés comme modèles de causalités, la notion de probabilité utilisée 
est une notion subjective de croyance. Quand on s'intéresse à l'apprentis- 
sage des réseaux bayésiens, on utilise une approche fréquentiste. 

1.2.3 Deuxième exemple : dépendances et indépendances 
► Modélisation 

Nous reprenons à présent l'exemple du jardin de M. Holmes afin de le 
transposer également dans notre formalisme probabiliste. Cet exemple va 
nous permettre de mettre en évidence la correspondance entre la représen- 
tation graphique des causalités, et les indépendances. 



Nous commençons par effectuer la même opération que pour l'exemple 
précédent, c'est-à-dire que nous construisons un espace probabilisé à par- 
tir des connaissances intuitives dont nous disposons. Nous avons ici quatre 
variables. A, P, J, W, qui peuvent prendre chacune la valeur « vrai » ou « faux 


A 

J’ai oublié de débrancher mon arroseur automatique. 

P 

Il a plu pendant cette nuit. 

I 

L’herbe de mon jardin est humide. 

W 

L’herbe du jardin de M. Watson est humide. 


À partir de nos connaissances subjectives, nous pouvons évaluer les 
probabilités de certains événements, soit marginales, soit conditionnelle- 
ment à un autre événement. Nous pouvons également traduire le fait qu'il 
n'y a aucun lien a priori entre le fait qu'il ait plu cette nuit, et le fait que M. 
Holmes ait oublié de débrancher son arroseur automatique. 

QD 
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Probabilités a priori 


Événement 

Probabilité 

Commentaire 

A = V 

0.4 

M. Flolmes oublie assez souvent de débrancher 
son arroseur automatique. 

A = F 

0.6 

P = V 

0.4 

La région est relativement pluvieuse. 

P = F 

0.6 


Probabilités conditionnelles 

La table ci-après exprime la connaissance selon laquelle l'herbe de mon 
jardin est humide si, et seulement si, il a plu, ou si j'ai oublié de débrancher 
mon arroseur automatique. 



A = V 

A = F 


> 

II 

p- 

P = F 

> 

II 

p- 

P = F 

J = v 

1 

1 

1 

0 

J = F 

0 

0 

0 

1 


Enfin, la table ci-après exprime la connaissance selon laquelle l'herbe 
du jardin de mon voisin M. Watson est humide si, et seulement si, il a plu. 



P = V 

P = F 

> 

1! 

£ 

1 

0 

3 

II 

Tl 

0 

1 


Indépendances 

Les variables A et P sont indépendantes. 


► Utilisation du modèle 

Nous allons maintenant dérouler à nouveau le scénario de M. Holmes, 
dans le cadre de notre modèle probabiliste. Ce matin-là, alors que le temps 
est clair et sec, M. Holmes sort de sa maison. Il s'aperçoit que la pelouse de 
son jardin est humide. (1) Il se demande alors s'il a plu pendant la nuit, ou 
s'il a simplement oublié de débrancher son arroseur automatique. Il jette 
alors un coup d'œil à la pelouse de son voisin, M. Watson, et s'aperçoit 
qu'elle est également humide. Il en déduit alors (2) qu'il a probablement 

© 
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plu, et il décide de partir au travail sans vérifier son arroseur automatique. 
Transposée en termes de probabilités, la première question (1) que se pose 
M. Holmes, revient à calculer et à comparer : 

p(A = V | J = V) 

et : 

P(P = V I J = V) 


On a (propriété d'inversion de Bayes) : 

p(J = V | A = V).p(A = V) 


p(A = V | J = V) = 


et : 


P(J = V) 

p ( J = V | P = V).p(P = V) 
P(J = V) 

et également (théorème de Bayes et indépendance de A et P) : 


P (P = V | J = V) = 


P(J = V) = 

p(J = v I A = V, P = V).p(A = V).p(P = V) + 
p(J = V | A = V, P = F).p(A = V).p(P = F)+ 
p(J = V I A = F, P = V).p(A = F).p(P = V) + 
P(J = V I A = F, P = F).p(A = F).p(P = F) 


d'où : 

p(A = V 1 = V) =0,625 
p(P = V | J = V) =0,625 


Nous retrouvons ici numériquement le résultat intuitif vu plus haut, à 
savoir que : 

• La croyance en chacune des deux causes est augmentée. 

• Il n'est pas possible de privilégier Tune des deux causes avec cette 
seule information. 

Dans la seconde partie (2) de son raisonnement, M. Holmes est alors 
amené à comparer p(A = V | J = V, W = V) avec p (P = V | J = V, W = V) 

Calculons tout d'abord p(P = V | W = V) : 


d'où : 


p(P = V| w = V) 


p(W = V P = V).p(P = V) 
p(W = V) 


p(P = V| W = V) 


p(W = V I P = V).p(P = V) 

p(W = V P = V).p(P = V) +p(W = V P = F).p(P = F) 


et finalement : 


p(P = v | W = V) = 1 
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En d'autres termes, compte tenu de mon modèle, si l'herbe du voisin est 
mouillée, il a certainement plu ! En revenant à la définition des probabilités, 
on peut montrer que si p(A) = 1, alors p(A | B) = 1 . Donc : 


p(P = V | f = V, W = V) = 1 


À ce moment, M. Holmes est donc certain qu'il a plu. Les calculs pour 


obtenir p(A = V| 1 = V,W = V) sont plus compliqués, et nous ne les 
reproduisons pas ici dans leur intégralité. On retrouverait cependant exac- 
tement : 


p(A = V | J = V,W = V) = 0,4 = p(A = V) 


Ce qui s'interprète en disant que, dans la mesure où M. Holmes a la 
certitude qu'il a plu, il n'a aucune raison de modifier sa croyance a priori 
dans le fait que son arroseur est resté branché. 

► Circuits d'information et indépendances 

Sur cet exemple, nous pouvons également retrouver la notion de cir- 
cuit d'information. Nous savons que A et P sont indépendants. Nous al- 
lons maintenant donner un sens plus quantitatif à la notion de circulation 
d'information. Comme 1 est connu, l'information peut circuler suivant le 
circuit A — » J <— P. Qu'est-ce que cela signifie en termes de probabilités ? 
Calculons : 


p(A = F, P = F | J = V) 


Par la règle d'inversion de Bayes, on a : 


p(A = F, P = F | J = V) 


p(J = V | A = F, P = F).p(A = F, P = F) 
P(J “ V) 


et donc 


P(A = F, P = F | J = V) = 0 


car (voir table de probabilités) 


p(J = V|A = F, P = F)=0 


or 


p(A = F | J = V) = 1 — p(A = V | J = V) = 0,375 
p(P = F | f = V) = 1 -p(P = V i J = V) =0,375 


et donc 


P(A = F, P = F | J = V) + p(A = F | J = V).p(P = F | J = V) 
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A et P ne sont donc pas indépendants conditionnellement à J. Qu'est- 
ce que cela signifie intuitivement ? Simplement que si deux facteurs indé- 
pendants peuvent déterminer le même effet, et que celui-ci soit observé, 
c'est nécessairement l'une ou l'autre des deux causes qui l'a produit. Donc 
les valeurs des deux causes sont liées : elles ne sont plus indépendantes, 
a posteriori. Graphiquement, que remarquons-nous ? A et P ne sont pas d- 
séparés par J : quand f n'est pas connu, l'information ne circule pas de A à P 
(ils sont indépendants), mais quand J est connu, l'information peut circuler 
de A à P (ils sont dépendants). 


1.2.4 Les réseaux bayésiens 

Les exemples précédents nous permettent de constater les faits suivants : 

• La transposition d'un graphe causal en espace probabilisé conduit à des 
résultats conformes au raisonnement intuitif que l'on peut mener di- 
rectement sur ce graphe. 

• Ces résultats sont quantitatifs. 

• Les calculs mis en œuvre, même sur des cas très simples, sont lourds. 

• Les propriétés graphiques ( d-séparation ) peuvent être mises en corres- 
pondance avec les propriétés d 'indépendance de l'espace probabilisé 
associé. 

La formalisation complète des réseaux bayésiens permet de prendre en 
compte ces différents aspects. 


► Définition 

Un réseau bayésien est défini par : 

• un graphe orienté sans circuit (DAG) G = (V, E), où V est l'ensemble 
des nœuds de G, et E l'ensemble des arcs de G ; 

• un espace probabilisé fini (D, Z, p) ; 

• un ensemble de variables aléatoires associées aux nœuds du graphe et 
définies sur (D, Z,p), tel que : 


ri 

p(Vi,V 2 ,--- ,Vn)=n P (VilC(V t )î 

i=l 

où C(Vi) est l'ensemble des causes (parents) de Vt dans le graphe G. 
C'est très exactement ce que nous avons construit sur les deux exemples 
ci-dessus. 


dD 
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► Propriétés 

Un réseau bayésien est donc un graphe causal 4 auquel on a associé une 
représentation probabiliste sous-jacente. Comme on l'a vu, cette représen- 
tation permet de rendre quantitatifs les raisonnements sur les causalités 
que l'on peut faire à l'intérieur du graphe. Nous avons également évoqué 
très rapidement le lien entre d-séparation et indépendance. En réalité un ré- 
sultat très important existe, qui affirme que « si X et Y sont d-séparés par 
Z, alors X et Y sont indépendants sachant Z ». Ce résultat, démontré par 
Verma et Pearl en 1988 [VP88], constitue la propriété fondamentale des ré- 
seaux bayésiens, dont nous parlerons plus précisément dans la partie sui- 
vante : 

< X | Z | Y >=^> p(X | Y, Z) = p(X | Z) 

Ce résultat est très important, car il permet de limiter les calculs de pro- 
babilités grâce à des propriétés du graphe. Supposons que X et Y soient 
d-séparés par Z, et que Z soit connu. Supposons, par ailleurs, que je vienne 
de calculer p(X | Z). Si une nouvelle information sur Y est alors connue, ce 
résultat me permet de conserver mon calcul de p(X | Z) comme valeur de 
p(X | Z, Y). Autrement dit, le résultat sur la d-séparation et le blocage d'in- 
formations que nous avions décrit intuitivement sur les graphes de causa- 
lités est valable également dans la représentation quantitative probabiliste 
sous-jacente ! Combinée avec un autre résultat, qui établit qu'un nœud est 
d-séparé du reste du graphe par l'ensemble constitué de ses parents, de 
ses enfants, et des autres parents de ses enfants, cette propriété permet de 
rendre locaux tous les calculs de probabilités dans un graphe causal. 

► Utilisation et difficultés 

L'utilisation essentielle des réseaux bayésiens est donc de calculer des 
probabilités conditionnelles d'événements reliés les uns aux autres par des 
relations de cause à effet. 

Cette utilisation s'appelle inférence. 

La correspondance qui existe entre la structure graphique et la structure 
probabiliste associée va permettre de ramener l'ensemble des problèmes de 
l'inférence à des problèmes de théorie des graphes. 

Cependant, ces problèmes restent relativement complexes, et donnent 
lieu à de nombreuses recherches. 

L'autre difficulté essentielle des réseaux bayésiens se situe précisément 
dans l'opération de transposition du graphe causal à une représentation 

4 Cette présentation intuitive des réseaux bayésiens est forcément partielle. Nous invi- 
tons les lecteurs à la lecture du chapitre 4 page 73 pour une définition plus formelle. 
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probabiliste. Même si les seules tables de probabilités nécessaires pour dé- 
finir entièrement la distribution de probabilité sont celles d'un nœud condi- 
tionné par rapport à ses parents, il reste que la définition de ces tables n'est 
pas toujours facile pour un expert. 

Nous allons donc maintenant aborder ces deux problèmes du point de 
vue technique. 
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Introduction aux algorithmes 


D 'un point de vue intuitif, l 'inférence dans un réseau de causalités 
consiste à propager une ou plusieurs informations certaines au sein de ce 
réseau, pour en déduire comment sont modifiées les croyances concernant 
les autres nœuds. C'est exactement ce que nous avons fait manuellement 
dans les deux exemples présentés ci-dessus. 


2.1 Inférence 


Supposons que nous disposions d'un réseau bayésien défini par un 
graphe et la distribution de probabilité associée (G,p). Supposons que le 
graphe soit constitué de n nœuds, notés {X-| , X2, ..., X n }. 

Le problème général de l'inférence est de calculer p(Xt | Y), où Y c 
X,X t £Y. 

On voit bien que la complexité de ce problème dépend de la structure 
du réseau. Nous allons tout d'abord étudier le problème de l'inférence de 
façon empirique, en montrant que la méthode « intuitive » qui consiste à 
propager l'information le long des arcs, conduit à des conclusions erronées 
dans le cas général. 

Nous présentons ensuite les méthodes applicables dans le cas général. 
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TAB. 2.1 Inférence dans les différentes structures de réseaux bayésiens 


2.1.1 Approche intuitive 

Supposons que nous disposions d'un réseau bayésien ( G , p ), par exemple 
l'un des quatre réseaux présentés ci-dessus, où toutes les variables sont bi- 
naires, et peuvent prendre les valeurs « vrai», ou « faux ». Par exemple, 
dans le cas du réseau en forme de chaîne, supposons que nous disposions 
de l'information A = V. Comment propager cette information dans le ré- 
seau, c'est-à-dire, comment calculer p(C | A = V) ? D'après la structure de 
ce graphe, nous savons que (définition d'un réseau bayésien) : 

P (A,B,C) =p(C | B).p(B | A).p(A) 

Comme de plus (définition de la probabilité conditionnelle) 

P (A, B,C) = p(C | A, B). p (B | A). p (A) 

on a : 

P (C | A, B) = p(C | B) 
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De plus (théorème de Bayes) 

p(C|A)=^p(C|A,B).p(B|A) 

B 

et donc 

p(C|A) = ^p(C|B).p(B|A) 

B 

finalement 

p(C = V | A = V) = p(C = V | B = V).p(B = V | A = V) + 

p(C = V | B = F).p(B = F I A = V) 

et de même 

p(C = F | A = V) = p(C = F | B = V).p(B = V | A = V) + 

p(C = F | B = F).p(B = F | A = V) 

On voit donc que l'opération revient à calculer de proche en proche la 
probabilité de chaque nœud, en propageant les probabilités condition- 
nelles connues. 

Voyons maintenant si cette méthode se généralise. 


► Chaînes 

Considérons une chaîne de longueur n, et calculons p ( X L j Xj). Si le 
nœud Xt est situé en aval du nœud Xj, mais n'est pas le descendant direct 
de X t (j < i — 1), 



on peut écrire : 


p(Xi I Xj) - Y. I Xi-i)-P(Xi_i | Xj) 

Xi-, 

Si le nœud Xi_i est un descendant direct de Xj, on a terminé (cas A, B, C ci- 
après). Sinon, il suffit de décomposer p (Xi_i | Xj ) de la même façon, jusqu'à 
arriver au descendant direct de Xj. Dans le cas où le nœud Xi est situé en 
amont du nœud Xj, c'est un peu plus compliqué. 


Xi 


-£Z> 
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Il faut d'abord utiliser la propagation avant à partir du début de la chaîne, 
pour connaître pour chaque nœud sa probabilité marginale p(Xic) pour 
1 < b < j. On peut utiliser la propriété d'inversion de la probabilité condi- 
tionnelle : 


p(Xi|X i+1 ) = 


p(X i+ i I Xi). p (Xi) 


p(Xi+i) 

De même, si Xt est l'ascendant direct de Xj, on a alors terminé. Sinon, il 
suffit également de continuer de proche en proche. 


► Arbres 

Le cas d'un arbre se traite de la même façon que les chaînes, par exemple 
en considérant qu'un nœud situé à un point de jonction peut être doublé, 
pour obtenir deux chaînes. 



► Polyarbres 

On appelle polyarbre un réseau sans boucle. Dans la pratique, cela signi- 
fie que chaque nœud peut avoir plusieurs parents. 

La propagation de l'information dans un polyarbre est plus complexe, 
car l'information peut circuler d'un parent à un autre. 

Cependant, le cas des polyarbres peut se traiter de la même façon, c'est- 
à-dire en utilisant une propagation locale. 

2.1.2 Cas général 

Essayons à présent d'appliquer un raisonnement local à un graphe pré- 
sentant des boucles. 

Supposons que nous cherchions à représenter avec un réseau bayésien 
les règles logiques suivantes : 


A =^> B 
B^C 
B uouD 
E^>XOR(C,D) 

— CD — 
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Cette connaissance peut être représentée par le graphe suivant : 



Nous devons également utiliser les tables de probabilités suivantes : 




C = V 

C = F 


D = V 

D = F 

D = V 

D = F 

E = V 

0 

1 

1 

0 

E = F 

1 

0 

0 

1 


Supposons que A soit faux, et essayons de conclure sur E. Essayons 
d'abord le raisonnement logique. Comme A est faux, je ne peux pas utiliser 
la règle A =^> B, et donc je ne peux rien dire sur B. Toutefois B est certaine- 
ment soit vrai, soit faux. Supposons que B soit vrai. Dans ce cas, C est vrai, 
et D est faux, et E est donc vrai. Supposons que B soit faux. Dans ce cas, C 
est faux, et D est vrai, et E est donc vrai. Donc si A est faux, E est vrai. 

Essayons maintenant la propagation « locale » des probabilités. Comme 
A est faux, la probabilité que B soit vrai (respectivement faux) est 1 /2. Donc 
la probabilité que C soit vrai est également 1/2, et de même pour D. Fina- 
lement, on conclut que la probabilité que E soit vrai est également de 1/2! 

Dans le cas d'un réseau comprenant des boucles, la propagation locale 
des probabilités ne fonctionne pas. 


(JD 
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► Conditionnement 


Essayons de comprendre intuitivement pourquoi le raisonnement pro- 
babiliste que nous avons fait ci-dessus ne fonctionne pas. En propageant 
l'information de B à C, puis de B à D, nous avons fait comme si C et D 
étaient indépendants. Or nous savons que, dans une connexion divergente, 
C <— B — » D, C et D ne sont indépendants que si B est connu (si B n'est 
pas connu, l'« information » peut circuler de C à D). Dans notre exemple, 
comme A était faux, B n'était pas connu et donc nous avons fait un calcul 
erroné. 

Dans le cas général, il n'est donc pas possible d'effectuer une propaga- 
tion locale des informations. 

L'une des méthodes employées consiste précisément à appliquer le pre- 
mier type de raisonnement. Cette méthode, appelée conditionnement, consiste 
simplement à exécuter les étapes suivantes : 

• Identifier un ensemble de nœuds tel que, si tous les arcs partant de ces 
nœuds étaient supprimés du réseau, le réseau n'aurait plus aucune 
boucle (B joue ce rôle dans l'exemple précédent). 

• Considérer l'ensemble des hypothèses possibles sur les valeurs de 
chacun de ces nœuds. 

• Dans le cadre de chacune de ces hypothèses, effectuer les propaga- 
tions « locales » dans le réseau sans boucle correspondant, et en dé- 
duire la probabilité conditionnelle recherchée. 

• Sommer les probabilités obtenues dans chaque hypothèse, pondérées 
par la probabilité de chaque hypothèse 1 . 

Dans l'exemple précédent, il suffit d'écrire : 


P(E | A) = ^p(E|b,A).p(b | A) 

b 


On voit que, dans ce type d'approche, il est important de bien choisir 
l'ensemble des N nœuds qui suppriment toutes les boucles. En effet, en 
supposant que chaque nœud a k états possibles, le nombre de propagations 
complètes à effectuer est égal à k N . 


: La probabilité de chacune des hypothèses se calcule également par une propagation 
locale. Ceci peut se démontrer dans la mesure où l'ensemble des nœuds choisis supprime 
toutes les boucles. 


dD 
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p(E = V | A = F) = p(E = V | A = F, B = V).p(B = V | A = F) + 

p(E = V | A = F, B = F).p(B = F | A = F) 


FlG. 2.1 Principe de la méthode de conditionnement 


► Arbre de jonction 

Il existe une autre méthode plus technique appelée construction de Y arbre 
de jonction. À partir d'un réseau quelconque, on peut construire un réseau 
qui est un arbre dont les nœuds correspondent à des sous-ensembles de 
nœuds du réseau initial. Il est alors possible de transformer le problème de 
l'inférence dans le réseau initial en un problème de propagation d'informa- 
tions plus complexes dans le réseau transformé. 

Cette méthode est aujourd'hui la meilleure connue en termes de com- 
plexité algorithmique. Cependant, il a été démontré que le problème gé- 
néral de l'inférence dans un réseau bayésien est NP-complet [Coo90]. Dans 
certains cas, l'utilisation d'autres méthodes, fondées le plus souvent sur des 
heuristiques ou des calculs approchés, est nécessaire pour des réseaux de 
grande taille. 

Cette approche est la plus répandue aujourd'hui dans la littérature, et 
la plus utilisée dans les outils logiciels. 

ŒD 
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► Méthodes approchées 

L'une des méthodes peut-être les plus simples et les plus efficaces pour 
des réseaux complexes utilise la simulation (voir par exemple [TSG92]). 
Considérons à nouveau l'exemple précédent. Supposons qu'on réalise un 
ensemble de simulations grâce à un générateur de nombres aléatoires, de 
la façon suivante : 

• Pour chaque nœud dont on connaît l'état a priori, ne rien faire (ici. A). 

• Pour chaque nœud sans parent, effectuer un tirage conforme à ses 
probabilités marginales, et placer ce nœud dans l'état obtenu (ici, au- 
cun nœud n'est concerné). 

• Dès qu'un nœud voit tous ses parents affectés d'un état déterminé, 
effectuer un tirage de l'état de ce nœud, conformément à la table de 
probabilités qui le conditionne à l'état de ses parents (ici. B, C, D, E). 

• Dès que tous les nœuds ont un état déterminé, ranger la configuration 
obtenue dans une table. 

Effectuer ce tirage un grand nombre de fois. Une fois ce travail effectué, on 
peut disposer d'une estimation de la probabilité de n'importe quel nœud 
sous l'hypothèse initiale (ici A = F). Cela permet donc de lire directement 
une valeur estimée de p(E | A). 


2.2 Apprentissage 

À ce stade de notre étude, il nous paraît intéressant de faire le point sur 
les résultats que nous avons obtenus. 

Tout d'abord, nous avons montré que la représentation intuitive d'un 
graphe de causalités pouvait être rendue quantitative par Tutilisation de 
probabilités. 

Ensuite, nous avons montré que les propriétés du graphe de causalités 
permettaient de faciliter les calculs (l'inférence) à l'intérieur de ce graphe, 
et nous avons décrit les principales méthodes d'inférence. 

La dernière question qui se pose, et elle est importante, est : « Où trou- 
ver ces probabilités ? » Il est en effet assez peu réaliste de penser qu'un 
expert pourra fournir de façon numérique l'ensemble des paramètres né- 
cessaires à l'inférence dans un graphe. Même si certaines études ont montré 
que la sensibilité des conclusions aux paramètres était relativement faible 
(c'est-à-dire que Ton a surtout besoin d'ordres de grandeur plutôt que de 
probabilités réelles), il peut être intéressant dans certains cas de déterminer 
ces paramètres à partir d'une base d'exemples. 

Il s'agit donc d 'apprentissage, en un sens assez voisin de celui qui est 
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utilisé, par exemple, pour les réseaux de neurones, dans la mesure où l'on 
cherche à trouver le jeu de paramètres tel que, la structure du réseau étant 
connue, celui-ci prenne en compte de la meilleure façon possible la base 
d'exemples dont nous disposons. 

Cette dernière étape franchie, nous disposerons alors d'un ensemble 
complet d'outils permettant de rendre opérationnelle et quantitative une 
connaissance empirique décrite sous la forme d'un graphe de causalités. 

Allons maintenant encore un peu plus loin. 

Supposons que nous disposions de deux modèles de causalité concur- 
rents (il est très facile de trouver de tels exemples en économie, par exemple). 
Nous ne disposons, en revanche, que d'une seule base d'exemples, qui est 
celle de la réalité. Il est dès lors très intéressant de confronter ces deux mo- 
dèles. La méthode est alors directement dérivée de ce qui précède. Pour 
chacun des deux modèles (chacun des graphes de causalités), nous allons 
rechercher les paramètres qui lui permettent d'être le plus proche possible 
des données. 

Il est clair que, si l'un des modèles est incomplet (par exemple, s'il sup- 
pose que deux variables sont indépendantes alors qu'elles ne le sont pas) la 
distribution de probabilité qu'il va représenter sera plus pauvre que la réa- 
lité. Donc, quels que soient les paramètres utilisés, cette distribution sera 
plus éloignée de la distribution empirique (constatée sur les données), que 
celle qui découlerait d'un modèle ne faisant pas l'hypothèse de l'indépen- 
dance de ces deux variables. 

La méthode d'apprentissage peut être alors utilisée pour comparer deux 
modèles. 

Enfin, en considérant que le nombre de modèles de causalités reliant 
un certain nombre de variables est fini, même s'il est grand, on peut finale- 
ment envisager de se passer d'expert. On peut alors construire un modèle 
uniquement à partir des données, en recherchant simplement parmi tous 
les modèles possibles celui qui représente le mieux la réalité. 

Nous allons présenter maintenant les principes des méthodes utilisées 
dans ces deux types d'apprentissage : 

• Apprentissage de paramètres. La structure d'un réseau (c'est-à-dire le 
graphe sous-jacent) étant donnée, rechercher le meilleur jeu de para- 
mètres (c'est-à-dire, rappelons-le, les différentes probabilités condi- 
tionnelles utilisées dans le graphe) pour rendre compte des données 
observées. 

• Apprentissage de structure. Sans aucune hypothèse sur la structure du 
réseau, rechercher celle, qui, une fois munie des meilleurs paramètres, 
rende compte le mieux possible des données observées. 
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2.2.1 Apprentissage de paramètres 

Pour comprendre la méthode généralement utilisée pour l'apprentissage 
de paramètres, commençons par l'exemple le plus simple possible. 

Tout d'abord, rappelons que par paramètre nous entendons ici une pro- 
babilité. 

Supposons alors que nous disposions d'un clou de tapissier dont nous 
cherchons à estimer la probabilité de tomber soit sur la tête, soit sur le côté, 
comme le montre le schéma ci-après. Considérons, de plus, que le côté pile 
correspond au cas où le clou tombe sur la tête. Nous cherchons à calculer la 
probabilité d'obtenir pile, que nous noterons 0. Supposons également que 
nous ayons observé p piles et f faces. 



La méthode la plus classique d'estimation de 0, consiste simplement à 
mesurer la fréquence des côtés piles, et de prendre : 


Ce résultat peut se retrouver d'une façon un peu plus élaborée. Comme 
nous ne connaissons pas cette probabilité, nous estimons a priori qu'elle 
suit une certaine distribution p ( 0 ) . La probabilité d'obtenir p piles et f faces, 
événement que nous noterons X(p, f) pour 0 donné est : 

P (X(p, f) | 0) = Cp +f 0 p .(1 — 0) f 

En appliquant la règle d'inversion de Bayes, la distribution de probabilité 
a posteriori de 0, compte tenu de cet événement, est : 

p(0 | X(p,f)) = k.p(X(p,f) | 0).p(0) 

soit 

p(0 I X(p, f)) =0>’.(1 — 0) f .p(0) 
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k étant une constante de normalisation qui garantit que 


rl 


k.0 p .(l — 0) f .p(0).d0 = 1 


0 


L'espérance mathématique de 0, selon cette distribution a posteriori, dé- 
pend de la distribution a priori p (0). Si p(0) était, par exemple, une dis- 
tribution uniforme, on retrouve (après calculs non détaillés ici) le résultat 
classique : 


Cependant, il est intéressant d'utiliser pour p(0) une distribution parti- 
culière, appelée « distribution de Dirichlet », qui s'écrit : 

p(0) = A.0 a .(1 -0) 13 

L'intérêt de cette distribution réside dans le fait que la distribution a 
posteriori obtenue à partir d'une distribution de Dirichlet, est également une 
distribution de Dirichlet. Ici, on aurait simplement : 


p(0 | X(p,f)) = k.0 p+<x .(1 — 0) f+|3 


L'espérance mathématique de 0 serait alors : 



Le choix des paramètres a et (3 initiaux s'effectue grâce à des considéra- 
tions sur la variance de la distribution de Dirichlet, qui permet de stabiliser 
l'estimation des paramètres dans le cas où le nombre d'exemples est faible. 

Retenons cependant que l'espérance mathématique de 0 tend égale- 
ment vers après un grand nombre de tirages. 

► Cas général 

Soit un réseau bayésien constitué des nœuds {XpX 2 , ...,X n }. Chaque 
nœud est supposé prendre des valeurs discrètes. Soit également une base 
d'exemples D constituée de la mesure de chacune des X| pour un certain 
nombre d'exemples N. Adoptons alors les notations suivantes. Si Xi est un 
nœud, on note : 

• ri le nombre de ses états possibles ; 

• Ci l'ensemble de ses parents, dont l'ensemble des états possibles est 
indexé par j. 
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On note également 0ÿ k la probabilité pour que soit dans l'état k, condi- 
tionnellement au fait que l'ensemble de ses parents soit dans l'état ). Si nous 
effectuons de plus les hypothèses (fortes) suivantes : 

• La base d'exemples D est effectivement produite par un réseau de 
structure donnée, notée B$, et elle est complète. 

• Les paramètres 0^ sont indépendants entre eux, et ils sont distribués 
suivant une loi de Dirichlet. 

On peut alors montrer que : 



où : 


• Nÿ k est le nombre d'exemples dans la base D, tels que X| est dans 
l'état k alors que ses parents sont dans l'état j. 

• N y est le nombre d'exemples dans la base D, tels que les parents du 
nœud Xi sont dans l'état j, indépendamment de l'état de ce nœud 


(Nij = LLi Ni*)- 


• ctqic est l'exposant du paramètre 0qic dans la distribution de Dirichlet 
initiale, et aq = ^£ =1 a ijk . 

Malgré l'apparence un peu complexe de ces calculs, on voit que les va- 
leurs retenues sont similaires aux fréquences relatives dans la base de don- 
nées D. 

2.2.2 Apprentissage de structure 

L'apprentissage présenté ci-après suppose que la base de données ob- 
servée provient effectivement d'une distribution représentée par un réseau 
bayésien de structure connue. 

Si l'on n'est pas certain que cette structure est la meilleure possible (cas 
de deux modèles concurrents), la première question qui se pose est de pou- 
voir comparer deux hypothèses de structure. 

► Critère 

Le critère le plus classique utilisé pour comparer deux distributions est 
la mesure de Kullback-Leibler : 



Cette mesure peut donc être utilisée pour comparer la distribution empi- 
rique obtenue à partir des données, et la distribution déduite du réseau 
bayésien dont on cherche à tester la structure. 


{ 36 } 
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► Recherche : structures contraintes 

Il a été montré que, en général, le problème de l 'apprentissage de struc- 
ture dans un réseau bayésien est NP-complet. Cependant, en recherchant la 
structure parmi un sous-ensemble de structures, il est parfois possible de 
trouver la structure optimale dans cet ensemble. 

Cela est vrai en particulier si la structure est un arbre. Un résultat as- 
sez ancien [CL68] montre que l'arbre optimal (au sens de la mesure de 
Kullback-Leibler) peut être trouvé simplement en calculant les mesures 
d'informations mutuelles entre deux variables sur la base d'exemples : 


I(Xi,Xj) = Y_ p(xi,Xj).log 

X-i ,Xj 


P(*i,Xj) 

p(Xi).p(Xj) 


Une fois ces mesures établies, on construit le réseau sous la forme d'un 
arbre tel que la somme des informations mutuelles sur les arcs qui le com- 
posent soit maximale (cet arbre peut être trouvé par un algorithme très 
simple). Ce résultat est généralisable aux polyarbres. 

À titre d'illustration, nous explicitons ici comment une version adap- 
tée de ce résultat a été utilisée pour construire des systèmes de classifica- 
tion. Supposons que nous disposions d'une base de données comportant 
les variables {Xi , X 2 , X n ). Pour chacun des exemples de la base de don- 
nées, nous disposons également de sa classe C. Chacun des X i; ainsi que 
C, prend des valeurs discrètes. On calcule les mesures d'informations mu- 
tuelles conditionnellement à la classe. 


I(Xi,Xj|C)= Y_ P( x iiXj, c).log 


P(Xi,Xj 


Xi ,Xj ,c 


p(xt | c).p(xj | c) 


On recherche ensuite l'arbre qui possède la somme maximale de ces 
informations le long de ses arcs, et on construit alors le réseau bayésien 
suivant : 
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2.3. Modèles continus 

Les paramètres du réseau 2 sont ensuite calculés directement, soit à partir 
de la méthode expliquée ci-dessus, soit simplement à partir des fréquences. 
Cet algorithme a montré de meilleurs résultats que les méthodes de l'état 
de l'art en classification (C4.5). 

► Recherche : le cas général 

Dans le cas général, c'est-à-dire si l'on n'impose aucune contrainte à la 
structure, le problème est relativement énorme. Pour dix variables, il existe 
à peu près 4.1 0 18 structures possibles ! 

C'est pourquoi les algorithmes mis en place sont essentiellement des 
algorithmes de recherche itérative sous-optimaux ! L'un des algorithmes le 
plus connu, nommé K2 [CH92] et créé par Cooper [Cooper2], ajoute pro- 
gressivement des arcs, en ne conservant un arc qui vient d'être ajouté que 
s'il améliore la performance du réseau suivant une métrique donnée. 

Voici comment cet algorithme construit le graphe X) — > X 2 — > X 3 (voir 
figure 2.2 ci-après). Après avoir commencé avec un réseau sans arc, K2 
essaie d'ajouter l'arc Xi — » Xz . Comme cet arc améliore la performance, il 
est conservé. Ensuite, K2 essaie d'ajouter l'arc Xi — > X 3 , puis l'arc X 2 — > X 3 . 
C'est ce dernier qui obtient le meilleur score, par rapport à la métrique 
donnée. Et ainsi de suite. 

Sur un problème artificiel, c'est-à-dire sur une base de trois mille exemples 
générée à partir d'un réseau prédéfini, comprenant trente-sept nœuds, qua- 
rante-six arcs — chaque nœud ayant entre deux et quatre valeurs — K2 a 
retrouvé la structure du graphe à deux erreurs près (un arc supprimé et un 
arc ajouté). Le temps de calcul pour cet exemple était d'une minute environ 
sur une station de travail Unix. 


2.3 Modèles continus 

Toutes les méthodes que nous avons étudiées supposent que les va- 
riables utilisées sont discrètes. Dans l'état actuel de la recherche, les réseaux 
bayésiens négligent très souvent le problème des variables continues. Cet 
aspect peut être pris en compte de la façon suivante : 

• soit en discrétisant les variables ; 

• soit en faisant une hypothèse de forme de distribution (par exemple, 
gaussienne). Ainsi, les paramètres à obtenir de l'expert ou à apprendre 
à partir des données sont les paramètres de la distribution continue, 
au lieu d'être les probabilités individuelles de chaque valeur discrète. 

2 Un exemple de paramètre du réseau de la page précédente est p (X3 = X3 [ Xi, Classe). 
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FlG. 2.2 Principe de l'algorithme d'apprentissage K2 


Il faut reconnaître que la plupart des recherches actuelles utilisent plutôt la 
première option et négligent complètement le problème des distributions 
continues de variables. 


2.4 Liens avec d'autres méthodes 

Des relations formelles ont pu être montrées entre les réseaux bayésiens 
et d'autres techniques, dans le domaine de la classification, en particulier 
pour les arbres de décision, et les réseaux neuronaux. L'équivalence for- 
melle entre réseaux bayésiens et réseaux neuronaux, proposée par Michael 
Jordan de l'université de Berkeley (anciennement au MIT), est particulière- 
ment intéressante [Jor95]. 

Si un réseau de neurones réalise une fonction continue de ses entrées 
X vers ses sorties Y, on considère le réseau de neurones comme une dis- 
tribution conditionnelle de probabilités P(Y | X). Considérons en effet un 
neurone utilisant la fonction sigmoïde comme fonction de transfert : 

1 

l+ e -^t w nx t 

Si Ton considère le neurone dans le cadre d'un problème de classification 
binaire, y peut être interprétée comme la probabilité que ce neurone prenne 
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2.4. Liens avec d'autres méthodes 

la valeur 1. De la même façon, on peut interpréter un réseau de neurones 
comme un réseau bayésien : 

• Chaque unité cachée est une unité binaire de sortie St, dont la pro- 
babilité de prendre la valeur 1 est conditionnée par les neurones en 
amont notés p ai (parents du neurone i) et est donnée par : 

P(Si = 1 | pat) = -L r 

• La loi de distribution jointe de l'ensemble des neurones est un produit 
de fonctions sigmoïdes. 

Cependant, cette représentation est peu utilisable aujourd'hui dans la 
pratique, pour deux raisons : 

• Les architectures complètement connectées des réseaux de neurones 
rendent totalement inefficaces les algorithmes d'inférence et, plus en- 
core, d'apprentissage dans les réseaux bayésiens. 

• Les algorithmes d'apprentissage dans les réseaux bayésiens ne prennent 
pas (ou peu) en compte les variables cachées, qui font l'essentiel de la 
puissance des réseaux neuronaux. 

Les avantages de cette représentation, dès qu'elle sera rendue opéra- 
tionnelle, seront nombreux, comme l'intégration de connaissances expli- 
cites dans les réseaux neuronaux, ou la recherche dans un cadre unifié de 
réseaux neuronaux optimisant des fonctions d'utilité de forme quelconque, 
et en particulier discontinue, voir à ce titre [Mac03]. 

Signalons que l'utilisation du cadre bayésien de l'apprentissage se dé- 
veloppe également pour la sélection de modèles de classification ou de pré- 
vision, en particulier les modèles neuronaux. Cette approche bayésienne 
de l'apprentissage, développée dans la partie suivante (partie théorique), 
permet notamment d'aborder les problèmes d'hyperparamétrisation des 
modèles, de sélection des entrées, ou de prise en compte de données man- 
quantes. 
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Exercices (et solutions) 


Les exercices proposés dans ce chapitre illustrent les concepts proba- 
bilistes utilisés dans cet ouvrage, notamment la notion de loi de probabilité 
conditionnelle et le théorème de Bayes. 

Ce chapitre a également pour but de mettre en évidence différents do- 
maines d'application des réseaux bayésiens (industrie, santé, biologie, droit), 
et d'aborder les principaux types d'applications : inférence, calcul de risque, 
propagation d'incertitudes, fusion sensorielle, aide à la décision. 

Nous avons choisi de classer les exercices par ordre de difficulté crois- 
sante : 

• Le paragraphe 3.1 ci-après propose des exercices simples d 'inférence 
probabiliste, qui peuvent être résolus en appliquant le théorème de 
Bayes ou en construisant un réseau bayésien à deux variables. 

• Le paragraphe 3.2 page 43 propose quelques problèmes connus de 
calcul de probabilité, pour lesquels la modélisation par réseau bayé- 
sien est particulièrement intuitive et efficace. 

• Le paragraphe 3.3 page 44 présente des cas tests dont la résolution 
manuelle est un peu plus difficile. L'utilisation d'un logiciel de réseau 
bayésien est recommandée pour vérifier les calculs ! 

• Le paragraphe 3.4 page 47 est expressément destiné aux lecteurs vou- 
lant s'exercer à l'utilisation d'un logiciel de réseau bayésien. La ré- 
solution manuelle des exercices de ce paragraphe est fastidieuse, et 
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seuls les résultats numériques sont donnés en solution. 

• Le paragraphe 3.5 page 50 est consacré à l'aide à la décision. 

• Enfin, le paragraphe 3.6 page 52 propose quelques exercices théo- 
riques. 

• Le paragraphe 3.7 page 53 présente les solutions commentées de ces 
exercices. 


3.1 Pour commencer 

3.1.1 Daltonisme 

Environ 8 % des hommes et 0,5 % des femmes sont, à des degrés divers, 
daltoniens. 


Estimer le pourcentage de femmes parmi les daltoniens. 


3.1.2 Langues orientales 

Dans une université de langues orientales où l'on enseigne le chinois et 
le japonais, il y a parmi les étudiants 40 % d'hommes et 60 % de femmes. 
Chaque étudiant n'étudie qu'une seule langue. Parmi les hommes, 70 % 
étudient le japonais et 30 % le chinois ; parmi les femmes, 60 % étudient le 
japonais et 40 % le chinois. 


Quelle est la proportion d'étudiantes dans les cours de japonais ? 


3.1.3 Détection d'une maladie animale 

Dans une population animale, un individu sur cent est affecté par une 
maladie. Un test servant à détecter la maladie est caractérisé par une pro- 
babilité de non-détection estimée à 5 %, et une probabilité de détection in- 
tempestive égale à 1 %. 


Estimer la probabilité qu'un individu soit atteint, sachant que le test est 
négatif. 


© 
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3.1.4 Provenance d'un composant 

Une usine est équipée de deux chaînes de production. La chaîne A pro- 
duit 200 composants par jour, dont 2 % sont défectueux. La chaîne B, plus 
moderne, produit 800 composants par jour, dont 1 % sont défectueux. 

Déterminer la probabilité qu'un composant défectueux provienne de la 
chaîne A. 


3.2 Grands classiques 

3.2.1 Jet de deux dés 

On lance deux dés équilibrés. Déterminer la loi de probabilité du maxi- 
mum des chiffres indiqués par les dés. 


3.2.2 Trois coffres 

Trois coffres contiennent respectivement : 

• une pièce d'or et une pièce d'argent ; 

• deux pièces d'or ; 

• deux pièces d'argent. 

On choisit une pièce dans un des trois coffres. La pièce est en or. Quelle 
est la probabilité que la seconde pièce du coffre le soit également ? 


3.2.3 Trois prisonniers 

Andy est prisonnier avec deux camarades. Bruce et Charlie. Leur geô- 
lier les informe que l'un d'entre eux a été choisi au hasard pour être exécuté, 
et que les deux autres seront libérés. 

Andy demande discrètement au geôlier de lui indiquer lequel de ses 
compagnons sera libéré (dans le cas où le condamné serait Andy lui-même, 
on suppose que le geôlier désignerait au hasard Bruce ou Charlie). Le geô- 
lier refuse, arguant que la probabilité que Andy soit condamné passerait, à 
cause de cette information supplémentaire, de ^ à 

Le raisonnement du geôlier est-il correct ? 
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Meurtrier Victime 


Noir 


Blanc 


Noir 


Blanc 


Noir 


Blanc 


Peine capitale 


11 


48 


0 


72 


59 


72 


Autre peine 


2 448 


2185 


2 209 


239 


111 


2 074 


131 4 633 

Tab. 3.1 Répartition des condamnations' selon la couleur de peau des meurtriers et des vic- 
times 


3.2.4 Meurtres en Floride 


Entre 1973 et 1979, 4764 affaires de meurtre ont été jugées dans l'État de 
Floride, aux États-Unis. La peine de mort a été prononcée 131 fois 1 . 

Dans le tableau 3.1, la répartition des condamnations est représentée se- 
lon la couleur de peau des meurtriers et des victimes. Il résume également 
ces mêmes statistiques en fonction uniquement de la couleur de peau du 
meurtrier. 


® Vérifier à partir du tableau 3.1 que les noirs sont statistiquement dé- 
favorisés à la fois dans les affaires où la victime est noire et dans celles 
où la victime est blanche. 

© D'après le tableau 3.1 (répartition des condamnations selon la couleur 
de peau des meurtriers), envers quels individus les tribunaux se sont- 
ils montrés statistiquement les plus cléments ? 

© Expliquer le paradoxe et proposer une représentation des données du 
tableau 3.1 par un réseau bayésien. 


3.3 Cas tests 

3.3.1 Diagnostics médicaux contradictoires 

Un patient craint d'être atteint du cancer et estime à 10 % la probabilité 
d'être atteint. Il consulte un médecin A qui ne diagnostique pas le cancer. 
Pensant que le médecin A s'est peut-être trompé ou a été trop prudent dans 
son diagnostic, il consulte un second médecin B qui lui, diagnostique le 
cancer. 

On suppose que : 

• le médecin A émet un diagnostic correct dans seulement 60 % des cas 
où il y a effectivement cancer mais ne se trompe jamais lorsqu'il n'y 
a pas de cancer ; 

1 Les données de cet exercice sont extraites de [Whi90]. 

© 
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• le médecin B émet un diagnostic correct dans 80 % des cas où il y a 
effectivement cancer et se trompe une fois sur dix lorsqu'il n'y a pas 
de cancer. 

À combien le patient peut-il estimer la probabilité de cancer avant et 
après le diagnostic du second médecin ? 

3.3.2 Contrôles antidopage 

Dans une compétition sportive, les participants sont systématiquement 
soumis à deux contrôles antidopage indépendants. Le premier test a une 
probabilité de non-détection de 5 % et une probabilité de détection intem- 
pestive de 1 %. Le second test a une probabilité de non-détection de 10 % 
mais ne génère pas de détection intempestive. Les organisateurs optent 
pour un règlement strict : un participant est disqualifié si l'un des deux 
tests est positif. On fait l'hypothèse que 10 % des participants ont absorbé 
des produits illicites. 

® Quel pourcentage de participants seront disqualifiés ? 

© Quelle est la probabilité qu'un concurrent sain soit disqualifié ? 

© Quelle est la probabilité qu'un concurrent disqualifié soit sain ? 


3.3.3 Fiabilité d'un système 

On considère un système de trois composants A, B et C. Les probabilités 
de panne des composants A, B et C sont de 15 %, 7 % et 3 %. On suppose 
que le système a la structure représentée sur le schéma de la figure 3.1 , 
c'est-à-dire qu'il est en panne si A est en panne, ou si B et C le sont. 



FlG. 3.1 Système de trois composants (Exercice 3.3.3) 


Représenter à l'aide d'un réseau bayésien les dépendances entre les 
états des composants A, B, C et l'état du système. 

® Calculer la probabilité de panne du système. 
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© Calculer la probabilité que A soit en panne sachant que le système est 
en panne. 

© Calculer la probabilité qu'aucun composant ne soit en panne. 


3.3.4 Détection d'incendie 

Un dispositif de détection d'incendie est composé de trois détecteurs 
de fumée. En cas d'incendie, chaque détecteur a 90 % de chances de fonc- 
tionner correctement. Le dispositif déclenche l'alarme si au moins deux dé- 
tecteurs sur trois révèlent la présence de fumée. Un opérateur, présent huit 
heures par jour, peut activer l'alarme manuellement. 

Quelle est la probabilité que l'alarme ne soit pas déclenchée en cas d'in- 
cendie ? 


3.3.5 Au tribunal 

Un individu soupçonné d'homicide a été identifié par un témoin dont 
les experts psychologues affirment qu'il est fiable à 70 % seulement. Un test 
ADN fiable à 99 % identifie également l'individu comme étant responsable 
du crime. Estimer la probabilité que l'individu soit coupable en adoptant 
une probabilité a priori de 10 % pour la culpabilité, puis une probabilité 
de 1 %. 


3.3.6 Gestion d'un parc de véhicules 

Une entreprise de location de cars possède cinq véhicules identiques 
qu'elle loue à la journée. On suppose que le nombre de demandes de cars 
suit une loi de Poisson de moyenne 4. 

Déterminer à l'aide d'un réseau bayésien : 

® le nombre moyen journalier de demandes non satisfaites ; 

© la probabilité qu'il y ait des demandes non satisfaites ; 

© la probabilité qu'un car au moins reste au garage ; 

© le taux moyen d'utilisation des cars. 

Que deviennent ces résultats si l'entrepreneur décide d'acheter un sixième 
car? 
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3.4 Plus difficiles 

3.4.1 Âges 

Un statisticien a trois enfants, Albert, Bianca et Cornélie, dont les âges 
sont compris entre 0 et 6 ans. 

Afin de faire deviner les âges de ses enfants à l'un de ses collègues, il 
lui donne successivement les trois informations suivantes : 

• Ci : « La somme des âges d'Albert, Bianca et Cornélie est égale à 15 ». 

• C 2 : « Bianca est strictement plus âgée qu'Albert ». 

• C 3 : « Bianca et Cornélie ont deux ans d'écart ». 

Construire un réseau bayésien pour exploiter ces informations. 

3.4.2 Décision de justice 

Un tribunal de trois juges déclare l'accusé coupable lorsqu'au moins 
deux juges estiment que cette décision est fondée. On suppose que si l'ac- 
cusé est coupable, chaque juge se prononce dans ce sens avec une proba- 
bilité de 80 %, et que la probabilité qu'un juge estime coupable un accusé 
innocent est égale à 10 %. Les décisions des juges sont indépendantes, il 
n'y a pas de concertation. On suppose enfin que le pourcentage d'accusés 
effectivement coupables est de 80 %. 

® Quel est le pourcentage d'accusés qui sont reconnus coupables ? 

® Quelle est la probabilité qu'un innocent soit condamné à tort ? 

© Quelle est la probabilité d'acquittement d'un accusé coupable ? 

© Quelle est la probabilité que le troisième juge estime innocent un ac- 
cusé que les deux premiers juges ont estimé coupable ? 


3.4.3 Modèle génétique 

Dans une population, on admet que la répartition des gènes est de 70 % 
pour le gène « yeux marron » et 30 % pour le gène « yeux bleus ». Chaque 
individu possède deux gènes. Le gène « yeux marron » est supposé do- 
minant : un individu ayant un gène « yeux bleus » et un gène « yeux 
marron » a nécessairement les yeux marron. 

® Représenter ces informations avec un réseau bayésien. 

® Calculer la probabilité qu'un enfant ait les yeux bleus si ses parents 
ont les yeux marron. 


© 
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© Calculer la probabilité que la mère ait les yeux bleus si l'enfant et le 
père ont les yeux marron. 

© Quelle est la proportion d'individus aux yeux marron dans la popu- 
lation ? Cette proportion tend-elle à augmenter au cours des généra- 
tions ? 

© Ajouter au modèle un second enfant en dupliquant les trois nœuds 
correspondant au premier enfant. Quelle est la probabilité que le se- 
cond enfant ait les yeux bleus sachant que le premier a les yeux bleus ? 

© Utiliser l'absorption de nœuds de manière à rendre le modèle plus 
lisible. 


3.4.4 Contrôle d'un procédé 

Un système de contrôle-commande d'un procédé industriel est com- 
posé de trois capteurs. Le système déclenche un arrêt automatique du pro- 
cédé si au moins deux capteurs détectent une anomalie (vote 2/3). 

Les capteurs sont soit en bon fonctionnement, soit en panne avérée, soit 
en panne cachée. Les probabilités respectives sont de 90 %, 9 % et 1 %. 

Si un des capteurs est en panne avérée, le système ignore les informa- 
tions émises par ce capteur et se reconfigure en vote 2/2, c'est-à-dire qu'il 
déclenche l'alarme si les deux autres capteurs détectent une anomalie. 

Enfin, si deux ou trois capteurs sont en panne avérée, l'arrêt automa- 
tique se déclenche. 

© En cas d'anomalie, quelle est la probabilité de non-déclenchement de 
l'arrêt ? 

® En cas d'anomalie, quelle est la probabilité de non-déclenchement si 
un des capteurs est en panne avérée ? En panne cachée ? 


3.4.5 Jeu télévisé 

Un jeu télévisé consiste à deviner le hobby favori de trois invités. Pour 
cela, le candidat a la possibilité de poser une question à chaque invité 
concernant un des 3 hobbies proposés. Aujourd'hui, les invités se prénom- 
ment Albert, Bruno et Igor; les hobbies proposés sont : fan des Beatles, 
basketteur et cinéphile. On suppose que chaque invité a un seul hobby et 
que les hobbies des invités sont distincts. 
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Le candidat a regardé les émissions précédentes et en a déduit quelques 
statistiques. Ainsi, il estime qu'un invité qui se voit poser une question 
concernant son hobby a : 

• 80 % de chances de se montrer « convaincant » dans sa réponse ; 

• 19 % de chances de se montrer « plutôt convaincant » ; 

• 1 % de chances de se montrer « peu convaincant ». 

Par ailleurs, le candidat considère que ces probabilités sont de 15 %, 
30 % et 55 %, si la question ne concerne pas le hobby de l'invité. Au cours 
de l'émission, Albert a été peu convaincant dans sa réponse à une question 
au sujet des Beatles ; Bruno a fourni une réponse détaillée à une question au 
sujet de la NBA ; enfin, Igor a été plutôt convaincant dans sa réponse à une 
question concernant le cinéma. Aidez le candidat à déterminer les hobbies 
de chaque invité en élaborant un réseau bayésien. Quelle est la probabilité 
qu'Albert soit cinéphile ? Quel est le hobby le plus probable d'Igor ? 

3.4.6 Mesure de température 

Un climatologue souhaite installer un dispositif de mesure de la tempé- 
rature ambiante. Le dispositif utilise deux thermomètres dont les précisions 
sont de 1 et 3 degrés, ce qui signifie que la température affichée est égale 
à la température réelle entachée d'une erreur de moyenne nulle et d'écart- 
type 1 ou 3 degrés respectivement. On suppose que la température réelle 
suit une loi gaussienne d'espérance 15 degrés et d'écart-type 5 degrés. 

Représenter ces données à l'aide d'un réseau bayésien, en utilisant la 
discrétisation 0-1, 1-2,..., 29-30. 

Que dire de la température réelle si le premier thermomètre affiche 8,5 
degrés et le second 12,5 degrés ? 

3.4.7 Durée de vie d'une ampoule électrique 

Un certain modèle d'ampoule est supposé avoir une durée de vie moyen- 
ne de m = 1100 heures, d'après les informations fournies par le construc- 
teur. Cette donnée est fournie à 30 % près : en d'autres termes, la valeur a 
priori de l'espérance de la durée de vie suit une loi gaussienne d'espérance 
1100 heures et d'écart-type 330 heures. On suppose que la durée de vie 
suit une loi uniforme, c'est-à-dire que la probabilité que l'ampoule soit dé- 
faillante au bout de x heures est égale à p = min(x/2m, 1 ). On sélectionne 
un échantillon de N = 1 0 ampoules. 

® Déterminer la loi du nombre d'ampoules défaillantes au bout de 800 
heures. 

® Réévaluer m si 9 ampoules sont défaillantes au bout de 800 heures. 
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3.4.8 Mesure d'une superficie 

Un terrain a une largeur de 120 mètres et une longueur de 160 mètres. 
Ces distances sont mesurées à 5 mètres près. Étudier à l'aide d'un réseau 
bayésien la distribution de probabilité de la superficie du terrain. 


3.4.9 Réseau électrique 

La figure 3.2 représente un réseau électrique constitué d'une zone de 
consommation, de deux unités de production G i et G 2 , et de deux lignes 
de transport Li et L 2 . 




FlG. 3.2 Réseau électrique (Exercice 3.4.9) 


Les unités de production, d'une puissance de 130 MW, sont disponibles 
90 % du temps. La demande dans la zone de consommation dépend de 
la saison : en moyenne, 150 MW en hiver, 50 MW en été et 100 MW en 
printemps-automne, avec un écart-type de 30 MW. En hiver, chaque ligne 
est indisponible 1 % du temps (de manière indépendante) à cause de forts 
givres. 

® Quel pourcentage du temps la demande peut-elle être satisfaite ? 

(D Si la demande n'est pas satisfaite, le problème provient-il plus vrai- 
semblablement d'une ligne ou d'une unité de production indispo- 
nible ? 


3.5 Aide à la décision 

3.5.1 Dilemme... cornélien 

Rodrigue souhaite séduire Chimène... Mais le père de Rodrigue de- 
mande à celui-ci de venger son honneur en affrontant en duel le père de 
Chimène, Don Gormas : 


GD 
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Parapluie 

Temps 

U 

Oui 

Pluie 

-5 

Oui 

Soleil 

-15 

Non 

Pluie 

-100 

Non 

Soleil 

50 


Tab. 3.2 Fonction d'utilité (Exercice 3.5.2) 


« Je ne te dis plus rien. Venge-moi, venge-toi ; 

Montre-toi digne fils d'un père tel que moi. 

Accablé des malheurs où le destin me range. 

Je vais les déplorer. Va, cours, vole, et nous venge. » 

Rodrigue hésite à accéder à la requête de son père : s'il tue Don Gormas, il 
estime que ses chances de conquérir Chimène sont de 60 %. En revanche, 
s'il refuse le duel, il évalue à 70 % la probabilité que Chimène le juge lâche et 
le rejette. Enfin, Don Gormas étant moins vaillant que Rodrigue, la proba- 
bilité d'une issue fatale du duel pour Don Gormas est de 60 %. En construi- 
sant un réseau bayésien comportant un nœud de décision, déterminer la 
décision optimale. 


3.5.2 Parapluie 

Jacques écoute la prévision météorologique chaque matin à la radio, qui 
annonce environ sept fois sur dix du soleil et trois fois sur dix de la pluie. Il 
sait par expérience que les prévisions sont fiables à 90 %. Jacques souhaite 
déterminer s'il emmène ou pas son parapluie. Pour cela, il détermine sa 
fonction d'utilité, notée U décrite dans le tableau 3.2. 

Représenter ces données dans un réseau bayésien en introduisant un 
nœud de décision et un nœud d'utilité. Quelle est la décision optimale si la 
météo annonce du soleil ? Quelle est la décision optimale si Jacques oublie 
d'écouter le bulletin météo ? Comparer le réseau bayésien avec une modé- 
lisation équivalente par arbre de décision. 


3.5.3 Tournoi de tennis 

Gilbert est un marchand ambulant qui a l'habitude de se rendre au tour- 
noi de tennis de Roland-Garros. Suivant les prévisions météorologiques, 
Gilbert emporte des parapluies ou des boissons fraîches. On admet les hy- 
pothèses suivantes : 


ŒD 
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Option A 

Emporter des parapluies : le chiffre d’affaires maximal est de 

2 000 euros. 

Option B 

Emporter des boissons : le chiffre d’affaires maximal est de 

1 000 euros. 

Option C 

Emporter un stock diversifié : le chiffre d’affaires maximal est de 

1 000 euros pour les parapluies et de 500 euros pour les bois- 
sons. 

Option D 

Ne pas se rendre au tournoi et exercer une activité (indépendante 
du climat) lui assurant un chiffre d’affaires de 300 euros. 


Tab. 3.3 Options (Exercice 3.5.3 page précédente) 


• Le temps à Roland-Garros est soit « beau », soit « pluvieux », soit 
« orageux », soit « frais ». 

• Si le temps est beau, Gilbert vend toutes les boissons fraîches. 

• Si le temps est pluvieux, les matchs sont annulés et Gilbert ne vend 
rien. 

• Si le temps est orageux, Gilbert écoule son stock de parapluies à cause 
des pluies fortes et passagères, mais vend aussi ses boissons car le 
temps est chaud. 

• Si le temps est frais, Gilbert vend 20 % de son stock de boissons et 
aucun parapluie. 

Quatre options se présentent en fonction des prévisions (tableau 3.3). 

On suppose enfin que la météo prévoit de manière équilibrée les quatre 
types de climat, avec une fiabilité de 70 % ; lorsque la prévision est erro- 
née, le climat réel se répartit équitablement entre les trois possibilités non 
prévues. 

Construire un réseau bayésien pour représenter ces informations. Quelle 
est la décision optimale ? 

• Si la météo annonce un temps « frais » ? 

• Dans le cas où l'organisme de météo est en grève ? 


3.6 Exercices théoriques 

3.6.1 Pouvoir de modélisation des réseaux bayésiens 


On considère n variables aléatoires discrètes Xi , X 2 , . . . , X n . Démontrer 
qu'il est possible de modéliser la loi de X = (Xi , X 2 , . . . , X n ) par un réseau 
bayésien (quelles que soient les dépendances entre les Xt). 
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3.6.2 Apprentissage de probabilités 

Dans une urne contenant des boules noires et blanches, soit 0 la propor- 
tion de boules noires. En l'absence de toute information sur 0, on se donne 
une loi de probabilité a priori sur 0, uniforme sur l'intervalle [0,1]. On fait 
N tirages avec remises et on obtient k boules noires. 

Quelle est la loi a posteriori de 0 et son espérance ? 

On pourra vérifier ce résultat, à l'aide d'un logiciel, dans le cas pratique 
N = 10; k = 7. 

3.6.3 Indépendances 2 à 2 

On considère trois variables booléennes Ai, A 2 et A 3 , vérifiant les hy- 
pothèses suivantes : 

• Ai a 50 % de chances d'être vraie. 

• A 2 est indépendante de Ai et a également 50 % de chances d'être 
vraie. 

• A 3 est vraie seulement lorsque Ai = A 2 . 

Construire un réseau bayésien représentant ces hypothèses. 

® Les trois variables sont-elles indépendantes ? Indépendantes 2 à 2 ? 

© Que constate-t-on quand on inverse un lien ? 

© Que constate-t-on quand on absorbe un nœud ? 

3.7 Commentaires et solutions des exercices 

O Exercice 3.1.1 page 42 

D'après le théorème de Bayes (cf. page 353), la probabilité qu'un individu soit 
une femme sachant qu'il est daltonien s'écrit : 


P (femme) P (daltonien | femme) 


P (femme | daltonien) 


(3.1) 


P (daltonien) 


Par ailleurs, la probabilité d'être daltonien peut être décomposée selon l'équa- 
tion : 


P(daltonien) = P(femme) ■ P(daltonien | femme) 

+ P (homme) ■ P (daltonien j homme). 


(3.2) 

(3.3) 


On en déduit, en admettant que la population comporte autant d'hommes que 
de femmes : 


P (femme | daltonien) 


0,5x0, 005 


(3.4) 


0.5 x 0,08 + 0.5 x 0.005 
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La proportion de femmes parmi les daltoniens est donc égale à fj , soit envi- 
ron 5,88 %. 

Notons que l'application du théorème de Bayes est intuitive : une femme sur 
deux cents est daltonienne ; or pour deux cents hommes, il y a en moyenne seize 
daltoniens. On retrouve ainsi de manière immédiate la proportion d'une femme 
pour dix-sept daltoniens. 


© *© 

FiG. 3.3 Réseau bayésien modélisant l'influence du sexe d'un individu (S) sur le dalto- 
nisme (D) 

Montrons à présent comment cet exercice peut être résolu à l'aide d'un réseau 
bayésien. 

Soient S et D les variables correspondant au sexe de l'individu et au dalto- 
nisme. D'après l'énoncé, le daltonisme est plus fréquent chez les hommes que chez 
les femmes : il y a bien influence de la variable S sur la variable D (figure 3.3 ). 

S'il y a autant d'hommes que de femmes dans la population, la loi de probabi- 
lité du nœud parent S est représentée par le tableau suivant : 


Homme 

Femme 

0.5 

0.5 


Quant à la loi de probabilité conditionnelle de D en fonction de S, elle est 
caractérisée, d'après l'énoncé, par le tableau suivant : 



Daltonien 

Non daltonien 

Homme 

0,08 

0,92 

Femme 

0,005 

0,995 


La structure de la figure 3.3 et les tables de probabilités des nœuds S et D dé- 
finissent un réseau bayésien. En saisissant ce réseau bayésien à l'aide d'un logiciel 
et en y introduisant l'information « D = daltonien », il apparaît que la probabi- 
lité que l'individu soit une femme passe de 50 % à 5,88 %. Qn retrouve ainsi la 
proportion jj. 

La figure 3.4 représente le réseau bayésien saisi avec le logiciel Netica. Sur 
cette copie d'écran, les lois de probabilité marginales des variables S et D sont 
représentées graphiquement à l'aide d'histogrammes. 

O Exercice 3.1.2 page 42 

Cet exercice, ainsi que les deux suivants, est analogue à l'exercice 3.1.1 page 42. 
Il se résout en appliquant le théorème de Bayes. 

On peut observer dans cet exemple que la relation entre les deux variables 
représentant l'étudiant(e) et la langue étudiée ne traduit pas nécessairement une 
causalité entre les paramètres. 
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FlG. 3.4 Réseau bayésien pour la relation entre le sexe d'un individu et le daltonisme 
(logiciel Netica) (Exercice 3.1.1 page 42) 


Le pourcentage d'étudiantes dans les cours de japonais est égale à 56,25 %. 

O Exercice 3.1.3 page 42 

La probabilité que l'animal soit atteint est égale à 9 §§y, soit environ 0,51 %. 

O Exercice 3.1.4 page 43 

La probabilité que le composant provienne de la chaîne A est égale à i . 

O Exercice 3.2.1 page 43 

Étant données deux variables aléatoires X et Y, et une fonction déterministe 
f à deux variables, la loi de probabilité de la variable aléatoire f(X,Y) peut être 
déterminée à l'aide d'un réseau bayésien ayant la structure de la figure 3.5 . Le 
réseau bayésien « propage » les lois de probabilité de X et Y, qu'on peut supposer, 
dans cet exercice, uniformes sur l'ensemble (1 , ..., 6}, de manière à déterminer la loi 
de f(X, Y) — max(X, Y). Les résultats numériques sont donnés dans le tableau 3.4 
ci-après. 



FlG. 3.5 Réseau bayésien pour la loi de probabilité d'une fonction de deux variables aléa- 
toires : le modèle « propage » les incertitudes sur X et Y. 


O Exercice 3.2.2 page 43 

La probabilité que la seconde pièce soit en or, sachant que la première est en 
or, est égale à j, et non à \ comme on pourrait le supposer. La démonstration de 
ce résultat est immédiate : si l'on note respectivement Xi et Xi les événements « la 
première pièce tirée est en or » et « la seconde pièce tirée est en or », la probabilité 
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Maximum des deux dés 

Probabilité 

1 

1/36 = 2,78 % 

2 

3/36 = 8,33 % 

3 

5/36 = 13,9% 

4 

7/36 = 19,4% 

5 

9/36 = 25 % 

6 

11/36 = 30,6 % 


Tab. 3.4 Loi de probabilité de la valeur maximale de deux dés 


Coffre 

Or 

Argent 

1 

0,5 

0,5 

2 

1 

0 

3 

0 

1 


Tab. 3.5 Loi de probabilité de la première pièce tirée (Exercice 3.2.2 page 43) 


recherchée s'écrit, par définition de la probabilité conditionnelle : 


P(X 2 1X0 


P(Xi etx 2 ) 
P(Xi) 


(3.5) 


Au numérateur, on reconnaît la probabilité de tirer deux pièces d'or, c'est-à- 
dire la probabilité de choisir le second coffre, égale à j. La probabilité P(Xi ) qui 
figure au dénominateur est égale à par symétrie du problème. On en déduit le 
résultat annoncé. 



FlG. 3.6 Réseau bayésien pour le problème des trois coffres (Exercice 3.2.2 page 43) 


Ce problème classique, dû au mathématicien Joseph Bertrand, peut être résolu 
à l'aide d'un réseau bayésien ayant la structure de la figure 3.7. On peut supposer 
que la loi de probabilité du nœud « coffre » est uniforme. La première pièce tirée 
dépend du coffre, selon la loi de probabilité conditionnelle représentée dans le 
tableau 3.5. La seconde pièce dépend à la fois du coffre et de la première pièce : la 
loi de probabilité de cette variable est donnée dans le tableau 3.6 ci-après. On peut 
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Coffre 

Première pièce 

Or 

Argent 

1 

Or 

0 

1 

1 

Argent 

1 

0 

2 

Or 

1 

0 

2 

Argent 

impossible 

3 

Or 

impossible 

3 

Argent 

0 

1 


Tab. 3.6 Loi de probabilité de la seconde pièce tirée (Exercice 3.2.2 page 43) 


remarquer que dans ce tableau, toutes les probabilités conditionnelles sont égales 
à 0 ou à 1 : la variable dépend de manière déterministe de ses variables parentes. 
La propagation à travers le réseau bayésien de l'observation « la première pièce est 
en or » modifie les lois de probabilité des deux autres variables du modèle, et l'on 
vérifie en particulier que la probabilité que la seconde pièce soit en or, initialement 
égale à devient |. 

O Exercice 3.2.3 page 43 

Le raisonnement du geôlier est faux. 

Sans information particulière lui permettant d'envisager l'avenir avec plus ou 
moins d'optimisme, Andy doit naturellement admettre que la probabilité qu'il soit 
condamné est égale à -y. Supposons que le geôlier accède à la demande d'Andy et 
désigne, par exemple. Bruce comme devant être libéré. Cette information n'est 
d'aucune utilité à Andy, qui savait déjà que l'un de ses deux camarades serait 
libéré. La probabilité qu'Andy soit condamné demeurerait donc égale à F. En re- 
vanche, la probabilité que Char lie soit condamné devient . 

Plusieurs modélisations de ce problème par réseau bayésien sont possibles. La 
plus simple consiste à introduire deux variables L et D, correspondant respective- 
ment au prisonnier libéré et au prisonnier désigné par le geôlier, et à construire un 
réseau bayésien ayant la structure élémentaire de la figure 3.7 . 



FlG. 3.7 Réseau bayésien pour le problème des trois prisonniers 


La loi de probabilité de L est uniforme, puisque chaque prisonnier a une chance 
sur trois d'être libéré ; quant à la loi de D, elle est caractérisée par la table de pro- 
babilités conditionnelles du tableau suivant : 


ŒD 
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Bruce est désigné par le geôlier 

Charlie est désigné par le geôlier 

Andy condamné 

0,5 

0,5 

Bruce condamné 

0 

1 

Charlie condamné 

1 

0 


En propageant dans le réseau bayésien l'information « D=Bruce », on constate 
que la probabilité qu'Andy soit libéré reste inchangée. 

Il existe de nombreuses versions de ce problème [PB99] : jeu des trois enve- 
loppes, des trois portes, Monty Hall Problem. 

O Exercice 3.2.4 page 44 

Cet exercice décrit un phénomène assez courant en statistiques et connu sous 
le nom de paradoxe de Simpson. 

Le tableau 3.1 page 44 montre que les blancs sont favorisés à la fois dans les 
affaires où la victime est blanche (3,4 % de peines capitales contre 16,7 %) et dans 
celles où la victime est noire (0,5 % contre 0 %). Ces observations laissent supposer 
une discrimination favorable aux blancs. 

Cependant, les données agrégées du tableau 3.1 page 44 montrent au contraire 
que les tribunaux favorisent globalement les noirs (2,4 % de peines capitales contre 
3,2 %). 

Afin de comprendre le paradoxe, examinons de nouveau le tableau 3.1 page 44. 
On observe tout d'abord que dans 92 % des affaires, le meurtrier et la victime sont 
de même couleur de peau. Par ailleurs, les tribunaux sont nettement plus sévères 
lorsque la victime est blanche que lorsqu'elle est noire : 5,2 % de peines capitales 
contre 0,5 %. 

Ainsi les meurtriers blancs apparaissent globalement défavorisés parce que, 
statistiquement, leurs victimes sont plus souvent de la même couleur de peau, et 
parce que les tribunaux sont, statistiquement, plus sévères dans les affaires où la 
victime est blanche. 



FiG. 3.8 Dépendance entre la couleur de peau du meurtrier (MJ, la couleur de peau de la 
victime (Vf et la condamnation (C) sous forme d'un réseau bayésien. 


Néanmoins, pour un même « type d'affaire » (le type d'affaire étant ici dé- 
fini par la couleur de peau de la victime), les noirs sont nettement défavorisés par 
rapport aux blancs. Or, pour étudier l'influence du seul paramètre « couleur de 
peau du meurtrier » sur la décision des tribunaux, il convient d'étudier son ef- 
fet indépendamment des autres paramètres, autant que le permettent les données 
disponibles. 
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Remarquons que si l'on détaillait encore davantage les données du tableau 3.1 
page 44 (par exemple en distinguant les crimes avec ou sans préméditation, cra- 
puleux ou passionnels, etc.), on pourrait être amené à reconsidérer les conclusions 
tirées de l'analyse de ce tableau. Cet exercice montre combien il est délicat de ti- 
rer des conclusions à partir de statistiques et en particulier de postuler l'existence 
d'une causalité à partir de l'observation de corrélations entre variables. 



FlG. 3.9 Réseau bayésien construit par le logiciel Elvira (Exercice 3.2.4 page 44) 


Pour modéliser par un réseau bayésien la distribution de probabilité représen- 
tées par ces données, notons respectivement M, V et C les variables correspon- 
dant à la couleur de peau du meurtrier, à celle de la victime et à la condamnation. 
Différentes structures de réseau bayésien sont envisageables pour relier les trois 
variables : la figure 3.8 page précédente montre une solution possible. Comme les 
variables M et V sont fortement corrélées, le lien entre ces deux variables peut être 
considéré comme indispensable, mais il n'en est pas de même des liens M — C et 
V — C, qui s'appuient sur des corrélations moins évidentes d'après les données de 
l'exercice. 

Il est également intéressant d'utiliser les données de cet exercice pour tester 
les fonctionnalités d'apprentissage de structure d'un logiciel de réseau bayésien. 
En effet, les statistiques du tableau 3.1 page 44 peuvent être considérées comme 
résumant un fichier de 4764 observations du triplet (couleur meurtrier, couleur 
victime, condamnation). 

À partir d'un tel fichier d'exemples, certains logiciels sont capables de pro- 
poser des structures de réseau bayésien qui traduisent les dépendances entre va- 
riables. La figure 3.7 est une copie d'écran du logiciel Elvira, qui montre une struc- 
ture de réseau bayésien « apprise » par l'outil à partir des données. On note 
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l'épaisseur du trait reliant la variable M (meurtrier) et V (victime) : le logiciel a 
clairement identifié la corrélation très forte entre ces deux variables. 


O Exercice 3.3.1 page 44 

Les réseaux bayésiens sont des outils de diagnostic puissants. Dans le domaine 
médical, ils offrent la possibilité de prendre en compte à la fois l'expertise du mé- 
decin, des données statistiques sur la fréquence des pathologies, ainsi bien sûr que 
les observations spécifiques au patient. 

Utilisons les notations A + , A - , B + et B~ pour désigner les diagnostics positifs 
ou négatifs des médecins A et B. 

La probabilité que le patient soit atteint du cancer sachant que le médecin A 
ne l'a pas diagnostiqué s'écrit : 


P( cancer | A ) 


P ( cancer et A ) 
P(A-) 


(3.6) 


Or, la probabilité d'un diagnostic négatif de A est : 

P(A _ ) = P( cancer )P(A _ | cancer ) + P( sain )P(A _ | sain ) (3.7) 


Soit 


P(A“) =0,1 x 0,4 + 0,9 x 1 = 0,94. 


(3.8) 


On déduit alors de ( 3.6) la probabilité que le patient soit atteint du cancer, 
sachant le diagnostic de A : 


01x04 2 

P( cancer | A") = ’ Q ^ =-* 4,26 %. 


(3.9) 


Le même raisonnement s'applique pour « actualiser » la probabilité après le 
diagnostic positif du second médecin : 


P( cancer j A et B + ) = 


P( cancer et A et B H 


(3.10) 


P(A- et B+) 

Or, la probabilité d'un diagnostic négatif de A et d'un diagnostic positif de B 

est : 

P(A~ et B + ) = P( cancer )P(A _ et B + | cancer) + P( sain )P(A _ et B + | sain ) 

(3.11) 

Soit, en supposant que les diagnostics soient indépendants conditionnellement 
à l'état du patient : 

P(A“ et B+) = 0,1 x 0,4 x 0,8 + 0,9 x 1 x 0, 1 =0,122. (3.12) 


On déduit alors de ( 3.10) la probabilité que le patient soit atteint du cancer, 
sachant les diagnostics de A et B : 


P( cancer | A~) = °’ 1 = ^ » 26 , 2 %. 


(3.13) 
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O Exercice 3.3.2 page 45 

La deuxième question est la plus facile à traiter. En effet, puisque le second test 
ne génère pas de détection intempestive, un concurrent sain ne peut être disquali- 
fié que si le premier test le déclare positif. Ainsi : 

P(disqualifié |sain)) = 0,01 (3-14) 

Évaluons à présent la probabilité qu'un concurrent soit disqualifié. On peut 
l'écrire : 

P(disqualifié) = P(disqualifié et sain) + Pfdisqualifié et dopé) (3.15) 

soit 

P(disqualifié) = P (sain) P (disqualifié |sain) + P(dopé)P(disqualifié |dopé) (3.16) 

Un concurrent dopé sera positif si l'un ou l'autre des tests est positif. D'où : 

P (disqualifié |dopé) = 0, 95 + 0, 9 - 0, 9 x 0, 95 (3.17) 

L'équation ( 3.16) donne alors : 

P (disqualifié) = 0,9 x 0,01 +0,1 x (0,95 + 0,9-0,9 x 0,95) = 0,1085 (3.18) 

Le pourcentage de participants disqualifiés sera donc en moyenne de 10,85 %. 
Il reste à évaluer la probabilité qu'un concurrent disqualifié soit sain. Celle-ci s'écrit, 
d'après le théorème de Bayes : 

P (sain] 0 P 

P(sain (disqualifié) = Pfdisqualifié |sain)- — — = 0, 01 ^ ’ (3.19) 

disqualifie 0,1085 

La probabilité qu'un concurrent soit sain sachant qu'il a été disqualifié est donc 
environ égale à 8,29 %. 

O Exercice 3.3.3 page 45 

Notons respectivement a, b, et c les probabilités que les composants A, B et C 
soient en marche. Pour que le système soit en marche, il faut que A soit en marche, 
et que B ou C le soit également. Par conséquent, la probabilité que le système soit 
en marche est égale à : 

a.(b + c — bc). (3.20) 

La probabilité de panne du système est donc égale à : 

P (panne) = 1 -a.(b + c-bc) = jqqqqq ~ 15 - 2% - (3-21) 

Calculons la probabilité que A soit en panne sachant que le système est en 
panne : 

„ , P( A en panne et système en panne) 

P(A en panne | système en panne) = — — (3.22) 

P (système en panne) 
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Lorsque A est en panne, le système est forcément en panne. Par conséquent, 
l'événement « A est en panne et le système est en panne » se résume à « A est en 
panne ». D'où : 

P(A en panne | système en panne) = — — T « 98.8 %. 

P (système en panne) 30357 

(3.23) 

Si le système est en panne, il est donc très probable que le composant A soit en 
panne. 

Enfin, la probabilité qu'aucun composant ne soit en panne est égale au produit 
abc, soit (qqqqq (environ 76,7 %). 

Cet exercice illustre l'utilisation d'un réseau bayésien pour une étude de fiabi- 
lité. Les réseaux bayésiens constituent une généralisation des arbres de défaillances 
on aurait pu traiter dans cet exercice, le cas d'un système série, parallèle, « deux- 
sur-trois », etc. 

O Exercice 3.3.4 page 46 

L'alarme automatique ne sera pas déclenchée si deux ou trois détecteurs sont 
en panne. Par conséquent, en notant po la probabilité de panne d'un détecteur 
(égale à 0,1), la probabilité de non-déclenchement de l'alarme automatique s'écrit : 

C|po(1 -po) +Po- (3-24) 


Si l'on suppose que le risque d'incendie est indépendant de la présence de 
l'opérateur et que l'opérateur est toujours apte à déclencher l'alarme lorsqu'il est 
présent, il reste à multiplier la probabilité de non-déclenchement de l'alarme au- 
tomatique par la probabilité que l'opérateur soit absent ( 4 ). 

On établit ainsi que la probabilité que l'alarme ne soit pas déclenchée est égale 
à so it environ 1,87 %. 

Cet exercice est un autre exemple d'utilisation d'un réseau bayésien pour une 
étude de fiabilité. Ici l'étude est prévisionnelle, mais le même réseau bayésien peut 
aussi s'utiliser en diagnostic, pour analyser a posteriori les causes d'un événement : 
si l'alarme ne s'est pas déclenchée, chaque détecteur a 32 % de chances de n'avoir 
pas fonctionné et l'opérateur était nécessairement absent. 

O Exercice 3.3.5 page 46 

Notons respectivement T et T' les événements « identification par le témoin » 
et « test ADN positif ». D'après le théorème de Bayes, la probabilité de culpabilité 
du suspect s'écrit : 

. . | __ __ , . P (coupable et T et T') 

P (coupable | T et T') = -i (3.25) 


Soit x la probabilité de culpabilité a priori du suspect. En supposant l'indépen- 
dance conditionnelle du test ADN et du témoignage humain, on a : 


P (coupable |TetT') 


0, 7 x 0, 99 x x 

0,7x0,99xx + 0,3x0,01 x (1 — x) 


(3.26) 
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Numériquement, avec x = 0,1 et x = 0,01, la probabilité de culpabilité est 
respectivement de 96,25 % et de 70 %. 

En dépit de la grande fiabilité du test ADN, la probabilité a priori de culpabilité 
du suspect influe fortement sur la conclusion que fournit le théorème de Bayes. En 
particulier, dans les deux situations extrêmes où l'on présume l'innocence (x = 0) 
ou la culpabilité (x = 1 ) du suspect, la probabilité de culpabilité reste respective- 
ment égale à 0 et à 1 lorsqu'on l'actualise avec le témoignage et le résultat du test 
ADN. 

L'utilisation du théorème de Bayes fait parfois l'objet de débats dans la com- 
munauté juridique : un ouvrage récent a d'ailleurs été consacré aux applications 
des réseaux bayésiens en médecine médico-légale [TAGB06] . Dans cet exemple, la 
modélisation par réseau bayésien permet de combiner une information objective 
(le résultat d'un test scientifique) et un témoignage subjectif ; cependant, la notion 
de probabilité a priori du suspect pose des problèmes éthiques. 

O Exercice 3.3.6 page 46 

Cet exercice est un exemple d'utilisation d'un réseau bayésien pour traiter un 
problème de dimensionnement. 

Notons D le nombre de demandes et n le nombre de véhicules. La variable D 
suit une loi de Poisson de moyenne 4, ce qui signifie que pour tout entier naturel k : 

P(D=k) = e- 4 ^. (3.27) 

Le nombre de demandes non satisfaites est nul si D < n, et égal à la différence 
n — D sinon. Cela se résume par l'équation : 

Do = max(0, D — n). (3.28) 


La loi de Do peut être explicitée à l'aide d'un réseau bayésien, par propagation 
de la loi de D, comme le montre la figure 3.7 ci-après. Théoriquement, les variables 
D et Do ne sont pas bornées : cependant, comme les logiciels de réseaux bayésiens 
ne traitent généralement que des variables prenant un nombre fini de modalités, 
des valeurs maximales fictives (20 et 10) ont été attribuées à D et Do- 

La probabilité qu'il y ait des demandes non satisfaites est 

Pi=P[D 0 >1). (3.29) 


La probabilité qu'un car au moins reste au garage est 

P 2 = P(D < n — 1). 


Enfin, le taux d'utilisation des cars est égal à : 

E(D-Do) 

T = . 

n 


(3.30) 


(3.31) 


Réponses : avec n = 5 : il y a chaque jour, en moyenne, E (Do) = 0,41 de- 
mandes non satisfaites ; p i = 0, 21 5 ; p 2 = 0, 63 et t = 72 %. Avec 6 cars, ces résul- 
tats numériques deviennent E (Do) =0,1 95 ; p i = 0, 1 1, p 2 = 0, 79, et t — 63 %. 
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Demandes 


0 

1.83 

1 

7.33 

2 

14.7 

3 

19.5 

4 

19.5 

5 

15.6 

6 

10.4 

7 

5.95 

8 

2.98 

9 

1.32 

10 

0.53 

11 

0.19 

12 

.064 

13 

.020 

14 

.006 

15 

.002 

16 

0 + 

17 

0 + 

18 

0 + 

19 

0 + 

20 

0 + 



4 ± 2 


Demandes non satisfaites 

0 

78.5 





1 

10.4 

■ 




2 

5.95 

1 




3 

2.98 





4 

1.32 





5 

0.53 





6 

0.19 





7 

.064 





8 

.020 





9 

.006 





10 

.002 





0.41 ±0.95 


FlG. 3.10 Détermination de la loi de probabilité du nombre de demandes de cars non sa- 
tisfaites (Exercice 3.3.6 page 46) 


O Exercice 3.4.1 page 47 

Cet exercice montre l'utilisation d'un réseau bayésien pour traiter un problème 
classique de résolution de contraintes. 

Afin d'exploiter les informations données par le statisticien, construisons un 
réseau bayésien en introduisant tout d'abord trois nœuds correspondant aux âges 
des enfants. Faute d'information particulière, on peut affecter a priori aux trois 
variables une distribution uniforme sur l'ensemble de valeurs { 0 , 1 , 2 , 3, 4, 5, 6 }. 

La prise en compte de la contrainte Ci s'effectue en introduisant une variable 
S, dont les variables parentes sont les âges des trois enfants, et qui est définie 
comme la somme des trois âges. On peut alors propager l'information « S = 15 » 
à travers le réseau bayésien et observer l'actualisation des lois de probabilité des 
âges des enfants. Conditionnellement à cette information, il devient notamment 
impossible qu'un des trois enfants ait 0, 1 ou 2 ans. 

Puis on introduit une variable C 2 , booléenne, vraie si et seulement si la contrainte 
C 2 est satisfaite (c'est-à-dire si Bianca est plus âgée qu' Albert). On peut alors pro- 
pager l'information « C 2 est vraie ». On procède de même pour la contrainte C 3 . 
La non-linéarité des contraintes C 2 et C 3 ne pose aucun problème. La figure 3.11 
ci-après représente la structure du réseau bayésien ainsi obtenu. 

La loi de probabilité a priori qu'on se dorme pour résoudre l'exercice n'a pas 
d'importance, car le statisticien a donné suffisamment d'informations pour que 
l'on puisse déterminer de façon certaine les âges des trois enfants : Albert, Bianca 
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FlG. 3.11 Réseau bayésien pour le problème des âges 


et Cornélie ont respectivement 5, 6 et 4 ans. 



La figure 3.12 représente la structure d'un réseau bayésien montrant l'in- 
fluence de la culpabilité sur les décisions des juges, puis la dépendance du verdict 
en fonction des avis des 3 juges. 

Réponses : 72,2 %, 2,8 %, 10,4 % et 20,3 %. 

O Exercice 3.4.3 page 47 

La figure 3.13 ci-après propose une structure de réseau bayésien pour repré- 
senter les informations de l'énoncé. 

Cet exemple met en évidence la double utilisation d'un même réseau bayésien 
pour la prévision (détermination des conséquences probables à partir des causes) 
et le diagnostic (détermination des causes probables à partir des conséquences). 
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FlG. 3.13 Réseau bayésien représentant l'influence de la couleur des yeux des parents sur 
la couleur des yeux de l'enfant (Exercice 3.4.3 page 47) 



FlG. 3.14 Réseau bayésien de la figure 3.13 , après absorption des variables correspondant 
aux gènes 


Certains logiciels de réseaux bayésiens sont dotés d'une fonction d'absorption de 
nœuds qui élimine certains nœuds du modèle. Dans cet exercice, il est intéressant 
de ne considérer que les variables observées, à savoir les couleurs des yeux. En 
effet, les variables correspondant aux gènes n'ont pas d'autre intérêt que d'expli- 
quer le phénomène d'hérédité. On obtient alors le réseau bayésien de la figure 3.14 
. Ce procédé d'« absorption » de variables permet une véritable simplification du 
modèle : il ne s'agit pas seulement d'un moyen d'améliorer sa lisibilité (Réponses : 
2) 5,33 % ; 3) 7,44 % ; 4) 91 %, Non et 5) 42,2 %). 

O Exercice 3.4.4 page 48 

Réponses : 0,52 %, 1,81 % et 18,2 %. Les résultats numériques montrent que la 
panne cachée d'un capteur compromet fortement le bon fonctionnement du sys- 
tème. 

Cet exercice met en évidence l'utilisation d'un réseau bayésien pour une étude 
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de type zvhat-if : on détermine simplement à l'aide du modèle quelle est l'augmen- 
tation du risque due à l'occurrence d'une panne. 

Dans le domaine des études de fiabilité, les réseaux bayésiens ont l'avantage 
de permettre la modélisation de composants présentant des modes de défaillance 
multiples. 

O Exercice 3.4.5 page 48 

Une structure du réseau bayésien apte à représenter les données de l'énoncé 
est proposée dans la figure 3.15 . Le nœud « Contrainte » est égal à « vrai » si les 
candidats ont trois hobbies distincts et à « faux » sinon. L'inférence bayésienne à 
partir des réponses des candidats s'effectue en fixant à « vrai » la valeur de cette 
variable (Réponses : la probabilité qu' Albert soit cinéphile est de 78,7 % ; le hobby 
le plus probable d'Igor consiste à écouter les Beatles). 



FIG. 3.15 


Réseau bayésien pour les hobbies des invités an jeu télévisé (Exercice 3.4.5 
page 48) 


O Exercice 3.4.6 page 49 

Réponses : 9,2 degrés est la valeur la plus probable. Le réseau bayésien est 
utilisé dans cet exercice comme outil de fusion sensorielle : on estime la « vraie 
valeur » d'un paramètre mesuré par différents capteurs. 

O Exercice 3.4.7 page 49 

Réponse : la fourchette la plus probable pour m est l'intervalle 800-1000 heures 
(probabilité de 60,4 %). Cet exercice montre l'utilisation d'un réseau bayésien comme 
outil de statistique bayésienne : on met à jour une loi de probabilité a priori à partir 
de données de retour d'expérience. 

O Exercice 3.4.8 page 50 

Cet exercice est un autre exemple d'utilisation d'un réseau bayésien pour pro- 
pager des incertitudes : étant données deux variables X et Y entachées d'incerti- 
tude, le réseau bayésien calcule la loi de probabilité de f (X, Y). On retrouve ici la 
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structure de la figure 3.5 page 55 (page 55). Notons qu'avec la plupart des outils 
de réseaux bayésiens, il est nécessaire de discrétiser les variables X, Y et f (X, Y) 
pour évaluer la loi de probabilité de f(X, Y). 

O Exercice 3.4.9 page 50 

La demande peut être satisfaite 93 % du temps (en été : 99 % ; en hiver : 
83 %) ; d'une unité de production. On aurait pu prendre en compte d'autres dé- 
pendances : périodes de maintenance des lignes en fonction de la saison, dépen- 
dances entre lignes (pas de maintenance simultanée sur les deux lignes, risque 
d'incidents simultanés sur les deux lignes, dus par exemple à un fort givre, à la 
foudre, à une tempête, etc.). L'utilisation de réseaux bayésiens pour les études de 
systèmes électriques sera abordée au chapitre 9.1 page 232. 

O Exercice 3.5.1 page 50 

Rodrigue doit accepter le duel (probabilité de succès = 36 %). 

O Exercice 3.5.2 page 51 

Les décisions qui maximisent l'espérance de l'utilité sont respectivement : ne 
pas prendre de parapluie (utilité espérée : — 1 ) ; prendre un parapluie (utilité espé- 
rée : — 11 , 6). 


O Exercice 3.5.3 page 51 

Emporter des boissons est la meilleure décision dans les deux cas (chiffre d'af- 
faire espéré : 340 euros et 550 euros). 

On remarque que l'espérance du chiffre d'affaires n'est pas nécessairement 
le critère le mieux adapté à la prise de décision. Par exemple, le marchand peut 
préférer une recette certaine de 300 euros à une recette espérée de 340 euros mais 
variable en fonction de l'aléa climatique. 

O Exercice 3.6.1 page 52 

Ce résultat théorique, qui se démontre immédiatement par récurrence, est im- 
portant en pratique. 11 montre en effet que, quelle que soit la complexité des inter- 
actions entre les variables du système étudié, il est possible de les représenter par 
un réseau bayésien. 


O Exercice 3.6.2 page 53 


La densité de probabilité a posteriori f(0, k) du paramètre 0 est d'après le théo- 
rème de Bayes : 


f(0,h) 


fQc I 9) 

Jo f(k | 0)f o (0) d0 


(3.32) 


où f o (0 ) est la densité a priori du paramètre 0, uniformément égale à 1 sur l'inter- 
valle [0,1]. On obtient après calcul : 


f(0,h) 


(n+1)! 

k!(n — k)! 


0 k (l 


0 ) 


n-k 


(3.33) 


La loi a posteriori est donc une loi |3, de moyenne (k + 1 )/(N +2). Ainsi, avec k = 7 
et N = 1 0, et une probabilité a priori de 50 %, le réseau bayésien évalue la propor- 
tion de boules noires à 2/3. L'apprentissage des probabilités à partir de données 
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s'effectue par estimation bayésienne. Le terme réseau bayésien provient cependant 
de l'utilisation du théorème de Bayes pour propager les probabilités. 

O Exercice 3.6.3 page 53 

Les trois variables sont dépendantes, bien que deux à deux mutuellement in- 
dépendantes. On observe que le problème est symétrique. 
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Chapitre 4 


Modèles graphiques et 
Indépendances 


D ans le chapitre d'initiation, nous avons présenté successivement les 
deux champs théoriques à la base des réseaux bayésiens, la théorie des 
graphes et la théorie des probabilités. Nous avons présenté une méthode 
intuitive de transposition d'un graphe causal vers un espace probabilisé. En- 
fin, nous avons mentionné l'existence d'un résultat important reliant une 
propriété graphique (la d-séparation) et une propriété probabiliste (l'indépen- 
dance conditionnelle). 

Ce type de résultat est loin d'être évident au premier abord. En effet, 
on peut considérer intuitivement que les graphes permettent la représen- 
tation de relations binaires entre éléments d'un même ensemble alors que 
les probabilités induisent une relation qualitative ternaire - l'indépendance 
conditionnelle - qui ne semble pas autoriser le même genre de représenta- 
tion. 

Dans ce chapitre, nous allons présenter les outils théoriques permettant 
de concilier effectivement la théorie des graphes et la théorie des probabi- 
lités. 

Cet exposé est plus général que ce qui serait strictement indispensable pour 
les réseaux bayésiens, puisque nous allons étudier dans le même cadre 
théorique les modèles non orientés, appelés aussi réseaux de Markov, et 
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les modèles orientés que sont les réseaux bayésiens. 

En conclusion, nous présentons quelques arguments qui nous font pré- 
férer les arcs aux arêtes, ou autrement dit les réseaux bayésiens aux modèles 
de Markov. 


4.1 Graphoïdes 

La relation d'indépendance conditionnelle sur un ensemble de variables 
V est une relation ternaire sur l'ensemble des parties de V et peut donc se 
décrire, par extension, comme la liste des triplets de sous-ensembles dis- 
joints de V vérifiant cette relation. Plus généralement, une telle liste de tri- 
plets détermine par extension une relation ternaire, quelle que soit la sé- 
mantique de la relation. Cette partie étudie les propriétés formelles et les 
structures intéressantes d'une telle relation. 


4.1.1 Modèles d'indépendance 

Définition 4.1 (modèle d'indépendance) 

Soit V un ensemble fini et non vide de variables, on note T(V) l'ensemble des 
triplets < A oB | C 3> de sous-parties disjointes A,B, C de V où A et B sont non 
vides. Toute sous-partie de T(V) est un modèle d'indépendance. 

<C A oB | C est la proposition logique qui indique que le triplet <C A <t>B | 
C appartient au modèle d'indépendance M. 

«A oB |C» M <f=^ «A oB | C»G M 


Note 4.1 [Pea88a] parle de dependency model. Cependant, comme chaque triplet sera in- 
terprété, dans un contexte probabiliste, comme une indépendance conditionnelle, il semble 
opportun de profiter de la traduction pour rectifier cette appellation. 


4.1.2 Semi-graphoïde et graphoïde 

Les modèles d'indépendance tels que définis ci-dessus sont des ensem- 
bles très peu contraints. Pour être utiles, ils doivent être structurés. Cette 
structure est donnée par de nouvelles notions, présentées ici telles qu'in- 
troduites par [Pea88a] : les semi-graphoïdes et les graphoïdes. 

Définition 4.2 (semi-graphoïde) 

Un modèle d'indépendance M est un semi-graphoïde s'il satisfait pour tout A, B , S , P 
sous-ensembles disjoints de V : 


® 
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(Indépendance 

triviale) 

(Symétrie) 
(Décomposition) 
(Union faible) 

(Contraction) et 


«A<t>0 |S> M 


<A <t>B |S> M 
«A <t> (B U P) |S> M 
« A <t> (B U P) |S> M 
« A oB !(SuP)» m | 
<AoP|S>m J 


<B o A [S> M 
<A<t>B |S> M 
<A<t>B |(SUP)» M 

«A <t> (B U P) |S> M 


NOTE 4.2 L'axiome d'indépendance triviale n'est pas explicitement donné dans [Pea88a]. 
Cependant, comme le remarque [Wil94], il semble être nécessaire et implicitement accepté 1 . 

On peut définir pour chaque modèle d'indépendance M. C T(V) un 
semi-graphoïde SG(M) qui est le semi-graphoïde minimal (au sens de l'in- 
clusion) contenant M. SG(M) est la fermeture de semi-graphoïde de M. 

Définition 4.3 (graphoïde) 

Un modèle d'indépendance M est un graphoïde s'il est un semi-graphoïde et s'il 
satisfait : 


(Intersection) 


f<A <t>B |(SUP)» M 1 
\<A <t>P t(SuB)> M J 


«A o (B U P) |S> M 


De même que plus haut, G(M) est la fermeture de graphoïde de M. 

[Pea88a] donne de ces structures une représentation visuelle qui fixe 
assez bien les idées sur les intuitions qui les sous-tendent (voir figure 4.1 ). 



Contraction Intersection 


FlG. 4.1 Représentations graphiques [Pea88a] des différents axiomes caractérisant les 
graphoïdes et les semi-graphoïdes. 


Les semi-graphoïdes et graphoïdes sont des structures très abstraites 
qui possèdent bien plus d'un champ d'application. [Daw98], [Stu97] ainsi 

1 Voir, par exemple, [Pea88a], paragraphe 3.2.1, page 97 : 

(...) Note that Bi (a) is nonempty because I(X, S, 0) guarantees that (...). 


(JD 
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que [CDLS99] en citent un certain nombre telles que : l'indépendance condi- 
tionnelle probabiliste, l'indépendance conditionnelle pour les fonctions de 
croyance, la dépendance multivaluée, les fonctions conditionnelles natu- 
relles, la théorie des bases de données relationnelles, la séparation dans les 
graphes, l'orthogonalité d'espaces vectoriels, etc. Pour ce qui nous intéresse 
ici, deux champs d'application sont particulièrement pertinents : l'indépen- 
dance conditionnelle et la séparation dans les graphes. 


4.2 Modèle d'indépendance et loi de probabilité 

Le lien entre modèle d'indépendance et loi de probabilité est assez simple. 
Toute loi de probabilité V sur un ensemble V de variables définit un modèle 
d'indépendance. Il suffit en effet de lister l'ensemble des triplets (A, B, C) 
de sous-ensembles disjoints de V qui vérifient la propriété d'indépendance 
conditionnelle A JL B | C 2 . En notant M-p le modèle d'indépendance ainsi 
créé, on a : 


Théorème 4.1 

• M -p possède une structure de semi-graphoïde. 

• Si V est positive alors Mp possède une structure de graphoïde. 


Démonstration 


Soit V une loi de probabilité et M-p le modèle d'indépendance vérifiant : 

<AoB |C>m p “L4 AJLB|C 


Mp doit alors vérifier : 
® Symétrie 


<A<t>B |S>m p AJLB|S 

=4 B JL A| S 
<=> <B oA | S 3 >m p 

(D Décomposition 

<AoB U P |S>m p -\=L AJLBUP|S 

=)> A JL B | S 
<(=)> -CAoBIS^m^ 

2 Rappelons que la notion d'indépendance conditionnelle est dépendante de la loi V. En 
toute rigueur, elle devrait donc s'écrire : A JL B | C[P] (voir page 355). 

GD 
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© Union faible 


<AoB U P |S> Mp <=A 



A JL B U P|S 
P = F(SUP) (projection) 
A JL B U P|S U P 
A JL B|S U P 

«A oB | (S UP)>m p 


© Contraction et Intersection 

Ces deux démonstrations sont des utilisations directes des propriétés 
(P4) et (P5) de la sous-section B.2.2 page 357. 

© Indépendance triviale 


<Ao0|S»m-p car A JL 0| S. 


□ 

Ce théorème énonce une implication : le modèle d'indépendance issu 
d'une loi de probabilité a une structure de semi-graphoïde. Il s'agit mainte- 
nant de se poser la question réciproque : qu'en est-il d'un semi-graphoïde ? 
Représente-t-il nécessairement une loi de probabilité ? 

Conjecture 4.2 (Pearl and Paz, 1985) 

Soit M un modèle d'indépendance. Si M est un semi-graphoïde alors il existe une 
probabilité V telle que 

V[X | Y, Z) = V{X | Z) <CX <t>Y |Z»m 

De plus, si M est un graphoïde alors il existe une probabilité V positive vérifiant 
cette relation. 


Malheureusement, [Stu92] montre que cette conjecture est fausse. 

Théorème 4.3 ([Stu92]) 

Soit une famille de propositions de type : 


<A, oBi | C ! > 


<A r oB r |C r > 


^^Ar-i-l < lt > B r _(_i Cv+1 ( < 00 


Si |V|>4 alors aucune famille finie de propositions de type (0) ne peut caractériser 
complètement les relations d'indépendance conditionnelle sur V. 

Note 4.3 Une telle famille finie est une tentative d'axiomatisation de la relation d'indé- 
pendance conditionnelle (voir, par exemple, [GPP91] ou [Mal91]). 


Lzz> 
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La définition d'un graphoïde prend effectivement la forme d'une fa- 
mille de type (0) page précédente. Donc, d'après ce théorème, un mo- 
dèle d'indépendance muni d'une structure de graphoïde ne peut caractéri- 
ser complètement toute relation d'indépendance conditionnelle. La conjec- 
ture 4.2 page précédente est donc fausse dans le cas général. Cependant, 
pour des classes particulières de modèles d'indépendance, cette réciproque 
est vérifiée, par exemple pour des modèles d'indépendance où toutes les 
variables de V apparaissent dans au moins un triplet ([GP90], [Mal91]), 
ou encore pour des modèles dits marginaux où les variables de condi- 
tionnement sont fixées ([GPP91]). De tels résultats négatifs ou restrictifs 
remettent en cause l'utilisation des modèles d'indépendance pour manipu- 
ler les indépendances conditionnelles probabilistes. Heureusement, [Stu97] 
propose un théorème (assez technique) qui permet d'établir que l'intuition 
de Pearl qui avait conduit à l'introduction de la notion de semi-graphoïde 
et à la conjecture 4.2 page précédente était bien fondée. 


Théorème 4.4 

La fermeture F de sous-graphoïde de tout couple d'éléments de T (V) est un 
modèle d'indépendance conditionnelle probabiliste. 

C'est-à-dire : il existe une loi de probabilité V sur l'ensemble des variables V telle que 
V(X | Y, Z) = V(X | Z) <^<X^YlZ» F .j 


4.3 Modèles d'indépendance et séparation dans les graphes 

De la même façon que pour les probabilités dans la sous-section pré- 
cédente, les modèles d'indépendance permettent aussi de décrire certaines 
propriétés en théorie des graphes. Réciproquement, représenter un modèle 
par un graphe permettrait de visualiser beaucoup plus facilement la rela- 
tion représentée par ce modèle. 

Comme il a été dit plus haut, l'écueil principal est qu'un graphe est une 
relation binaire entre les éléments d'un ensemble alors qu'un modèle d'in- 
dépendance est une relation ternaire entre sous-parties de cet ensemble. Le 
lien entre ces deux types de relation est apporté par la notion de séparation. 

La séparation établit, quel que soit le type de graphe, s'il est possible de 
séparer (dans un certain sens) deux sous-ensembles de nœuds par un troi- 
sième. Le « certain sens » dépend du type de graphe qui est utilisé (voir les 
sections suivantes qui décrivent précisément ces séparations). 

Définition 4.4 (Séparation) 

Soit un graphe G = (V, E), pour tout triplet (X,Y,S) de sous-parties de V, dis- 
jointes deux à deux, on note (X | S | Y) g la propriété « X et Y sont séparés par S 
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dans le graphe G ». 

Note 4.4 La propriété contraposée de la séparation est appelée la connexion. X et Y, sous- 
ensembles de V, sont donc soit connectés, soit séparés par Z. 

La séparation permet d'introduire une relation ternaire sur les sous- 
ensembles de nœuds d'un graphe. Tout comme dans la sous-section pré- 
cédente, il s'agit maintenant de préciser la formalisation de cette relation 
comme modèle d'indépendance. 

Définition 4.5 (I-map, D-map, P-map, graphe-isomorphisme) 


soit G = (V, E) un graphe et M c T(V) un modèle d'indépendance, 

• G est une D-map de M ssi 

«XoY |Z» M 


(X|Z|Y) g 

• G est une I-map de M ssi 

«X<i>Y |Z» M 

4= 

(X | Z [Y) g 

• G est une P-map de M ssi 

<Xd>Y |Z» M 


<X|Z|Y) g 


Un modèle d'indépendance est dit graphe-isomorphe si et seulement s'il existe 
un graphe G qui soit une P-map de M. 

Note 4.5 Les termes de D-map ( dependency map), I-map ( independency map) et P-map (per- 
fect map ) ont été gardés comme définis par [Pea88a]. 

Si un graphe G est une D-map d'un modèle M, toute connexion de sous- 
ensembles de nœuds indique une dépendance dans M (contraposée de la 
définition ci-dessus). Réciproquement, si le graphe est une I-map, toute sé- 
paration est alors l'indication d'une indépendance dans le modèle. Enfin, 
une P-map est à la fois une D-map et une I-map. 

En notant Mq le modèle d'indépendance induit par la séparation dans 
le graphe G (c'est-à-dire (X | Z ( Y) q <=> <C X <t>Y I Z 3 >m g )/ on peut aussi 
dire que pour un modèle d'indépendance M : 

• G est une D-map de M si et seulement si M c Mg (certaines indé- 
pendances lues par séparation dans le graphe G ne sont pas dans le 
modèle M). 

• G est une I-map de M si et seulement si M d Mg (toute indépen- 
dance lue par séparation dans le graphe G est présente dans le mo- 
dèle M ; cependant, certaines indépendances du modèle M ne sont 
pas représentées). 

• G est une P-map de M si et seulement si M = Mg. 

Exemple 4.6 Pour un ensemble de variables V, le graphe (V, 0) est une I-map de tout mo- 
dèle d'indépendance. De même, le graphe non orienté complet (V, V x V) est une D-map 
de tout modèle d'indépendance. 


De fait, l'expressivité de chaque type de graphe va dépendre de l'exacte 
définition de la séparation puisque cette dernière aura des répercussions 
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fortes sur la classe des modèles qui peut y être représentée. Ainsi il s'avère 
que certains modèles n'ont de P-map dans aucun type de graphe. 

Si un modèle n'a pas de P-map, aucune représentation graphique ne 
sera complète. Utiliser une représentation graphique d'un modèle d'indé- 
pendance n'est pas intéressant si cette représentation est capable de « men- 
tir » sur le modèle. Un moindre mal est que le mensonge soit par omission 
et le plus faible possible. C'est la raison pour laquelle la notion la plus im- 
portante est celle de I-map minimale. 

Les trois sections suivantes s'attachent à décrire plus exactement la sé- 
paration dans les différents types de graphe. 


4.4 Modèles non orientés : réseaux de Markov 


4.4.1 Définition 

Définition 4.6 (Séparation non orientée) 

Soit G = ( V, E) un graphe non orienté ; pour tout triplet (X, Y \Z) de sous-ensembles 
disjoints de G, X est séparé de Y par Z dans G (noté (X | Z | Y) g) si et seulement si 
toute chaîne d'un nœud de X vers un nœud de Y passe par un nœud de Z. 


(X | Z | Y) G «=* 


V(xi)ie{i...p}cN chaîne de G, 


Exemple 4.7 Dans la figure 4.2 , toutes les chaînes de {1 ,4, 7} vers {3, 5, 6} passent néces- 
sairement par 2 : ({1,4,7} | {2} | {3,5, 6}). De même, toutes les chaînes de 2 vers 5 passent 
nécessairement par 6 ou 3 : ({2} |{6, 3} |{5}). 



FlG. 4.2 Séparation dans un graphe non orienté 


® 
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4.4.2 Séparation et indépendances : propriétés de Markov 

Soit un graphe G = (V, E) et une probabilité V sur l'ensemble des va- 
riables V. La question qui se pose ici est de trouver le rapport entre sépa- 
ration et probabilité (ou plus exactement indépendance conditionnelle), qui 
permet de mesurer la précision des informations que le graphe G apporte 
sur V. Cette mesure est donnée par une série de propriétés dites de Markov 
qui sont plus ou moins fortes : plus le graphe vérifie de propriétés fortes, 
mieux il représente la loi V. 

Définition 4.7 (Propriétés de Markov) 

Le graphe G et la loi V peuvent vérifier : 

(P) la propriété de Markov par paire 

si et seulement si Vx, y G V, x et y non adjacents dans G, 

xJLy |(V\{x,y}) 

(L) la propriété de Markov locale 

si et seulement si Vx G V, 


x_lL (V \D X ) l$x 

où $ x est le voisinage du nœud x et $ x est la fermeture de voisinage de x, 
c'est-à-dire -& x = d x U {x} (voir section A.3 page 341). 

(G) la propriété de Markov globale 

si et seulement si VA, B, S c V disjoints, 

(A |S |B) g =L A JL B | S 

Définition 4.8 (Réseau markovien) 

Un graphe vérifiant ( G ) pour V est un réseau markovien de V. 

La propriété (G) de Markov globale correspond à un graphe G, I-map 
du modèle d'indépendance conditionnelle probabiliste engendré par V. 
Les propriétés sont ici données dans l'ordre de force croissante. Plus préci- 
sément, ces trois propriétés sont en relation comme suit : 


Théorème 4.5 

(G) => (L) =V (P) 

Démonstration 

• (G) => (L) : on a toujours (x |D X | (V\ : & X )) G . 
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• (L) A (P) : soit un graphe G et une loi V pour lesquels (L) est vérifiée. 

xA(V\S x )|fl x 

Soit x et y non adjacents dans G. D'après la propriété (P3) de la sous- 
section B.2.2 page 357, 


x A (V \ -& x ) | [-&X U ((V \ -& x ) \ {y})] 
ou encore xA (V\-& x ) |V\{x,y} 

Or y € (V \ -& x ) (en tant que non adjacent de x) et donc, d'après la 
propriété (P2) de la sous-section B.2.2 page 357, 

x A y | V \ {x,y} 

□ 

Les réciproques (P) A (L) A (G) seraient bien plus intéressantes que 
le théorème lui-même. En effet, tester (P) ne demande que de tester chaque 
paire de variables non adjacentes alors que tester (G) demande un calcul 
sur un grand nombre de triplets de sous-ensembles de V. Avec les réci- 
proques, il serait aisé d'obtenir des résultats sur la qualité de représentation 
du modèle d'indépendance de V par le graphe G. Malheureusement, elles 
ne sont pas toujours vraies. Le résultat 3 exact est le suivant : 


Théorème 4.6 

Si la loi V vérifie la propriété suivante : 

VA, B, C, D sous-ensembles disjoints de V, 
S/AAB|CuDefAAC|BuD alors A A B U C | D 

Alors, l'équivalence (G) AA (L) AA (P) est vérifiée. 


Note 4.8 On note que la propriété que doit vérifier V est exactement la propriété P5 
page 357. 


4.4.3 Réseaux de Markov et factorisation 

Dans le chapitre précédent, on a montré la relation entre indépendance 
conditionnelle et factorisation de la probabilité (voir théorème B. 2 page 356). 
Nécessairement, une relation existe entre propriétés de Markov et factori- 
sation. 

3 Pearl and Paz 
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Définition 4.9 (Factorisation) 

Soit une loi de probabilité jointe 'P(V) et un graphe non orienté G = (V, E), on dit 
que V possède une factorisation selon G si et seulement si pour tout sous-graphe 
complet S de G, il existe une fonction T^V) ne dépendant que des nœuds de S 
telle que : 

v(v) = n w) 

S sons-graphe complet de G 

4> s est appelée un potentiel. Cette factorisation de V en potentiels n'est 
pas unique. De fait, par multiplication des potentiels, on peut restreindre la 
factorisation à l'ensemble des cliques de G. 

Propriété 4.10 

Soit C l'ensemble des cliques de G. V se factorise selon G si et seidement si pour 
toute clique C de C, il existe un potentiel ¥c tel que : 

w)-n^(v) 

CGC 

Toutes les probabilités ne se factorisent pas ainsi. On note souvent Mp(G) 
l'ensemble des probabilités pouvant se factoriser ainsi selon G. Pour une 
probabilité V, on note (F) la propriété « T* € A4 f(G) ». La relation entre 
factorisation et propriétés de Markov peut alors s'énoncer comme suit : 


Théorème 4.7 

Une probabilité V pouvant se factoriser selon G vérifie alors la propriété globale 
de Markov (G) (qui, elle-même, implique les deux autres propriétés de Mar- 
kov : locale (L) pids par paire (P)). 

(F) ^ (G) =HL) ^ (P). 

De plus, si V est positive, 

(F) «=* (G) «=* (L) «=* (P). 


4.4.4 Limites 

Grâce à ces résultats, la représentation graphique d'une probabilité sur 
plusieurs variables par un graphe non orienté sur ces variables semble bien 
cernée. Il est possible de discerner assez aisément les I-map d'une loi de 
probabilité et même d'essayer de les améliorer pour obtenir une I-map mi- 
nimale. Pourquoi chercher plus loin et essayer de trouver d'autres repré- 
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sentations certainement plus complexes, en tout cas moins intuitives ? La 
raison principale est la limitation du modèle non orienté. 

Soit un système de trois variables {Di,D 2 , S}. Di et D 2 représentent 
toutes deux le tirage d'un dé (valeur entre 1 et 6) ; S représente la somme 
de ces deux tirages (valeur entre 2 et 12). Ce système vérifie le modèle d'in- 
dépendance représenté dans le tableau 4.1. 


D, _1LD 2 

Les deux tirages sont indépendants 

non DI JL S 
non D2 JL S 

Chaque tirage et la somme sont dépendants 

non D, JL D 2 |S 

La connaissance de la somme rend dépendants les deux tirages 


TAB. 4.1 Modèle d'indépendance de {Di , D 2 , S} 


Pour représenter un tel modèle, il faudrait 
pouvoir : 

• ne pas relier Di et D 2 ; 

• relier Di et S, relier D 2 et S ; 

• trouver un moyen pour qu'il n'y ait pas 
(Di|S|D 2 >. 



FlG. 4.3 Représentation non 
orientée des relations dans 
{D U D 2 ,S}. 


Il n'est pas possible de représenter par une P-map un tel modèle dans 
un graphe non orienté. La figure 4.3 est une représentation possible. Ce 
graphe ne vérifie que les deux premiers points mais ne vérifie pas le troi- 
sième. En fait, il ne vérifie ni (G), ni (L),ni même (P). Une autre représenta- 
tion serait un graphe complet entre les trois variables, mais le premier point 
ne serait pas vérifié et la représentation ne serait pas meilleure. 

D'où l'intérêt d'aller chercher des modèles plus complexes qui permet- 
tent de mieux représenter (ou au moins différemment) ces lois de probabi- 
lité en utilisant des graphes orientés. 


4.5 Modèles orientés : réseaux bayésiens 

4.5.1 Définitions 

La séparation dans les graphes orientés est plus complexe que dans les 
graphes non orientés. En effet, il ne suffit pas de savoir si au moins un nœud 
de tout chemin entre X et Y appartient à Z ; il faut aussi que ce nœud véri- 
fie des conditions supplémentaires, apportées par les orientations des arcs. 
Cette notion provient également de [Pea87a]. Tout comme lui, on présen- 
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tera d'abord la notion de chaîne active qui facilite grandement celle de sépa- 


ration orientée ( directed séparation ou d-séparation). Dans toute cette partie, 
on considérera que les graphes orientés dont on parle sont sans circuit. 

Soit une chaîne C = (xt)igi dans un graphe orienté G . On dira que xt 
est un puits de la chaîne C s'il est du type : xt_i — » X| <— x v -| ; c'est-à-dire 
s'il est un sommet à arcs convergents dans la chaîne. 

Définition 4.11 (Chaîne active, bloquée) 

Soit une chaîne C = (xj^i dans G et Z un sous-ensemble de nœuds de G. C est 
une chaîne active par rapport à Z si les deux conditions suivaiites sont réunies : 

• Tout puits de Ca l'un de ses descendants dans G ou lui-même qui appartient 


à Z. 


• Aucun élément de C qui n'y est pas un puits n'appartient à Z. 

Une chaîne non active par rapport à Z est dite bloquée par Z. 

Le type de modèles d'indépendance que peuvent prendre en compte les 
graphes orientés (et que ne pouvaient pas prendre en compte les graphes 
non orientés) est caractérisé dans cette définition un peu complexe : com- 
ment représenter la situation où deux variables sont indépendantes mais 
où la connaissance d'une troisième les rendrait dépendantes 4 ? Pour deux 
variables qui ne sont reliées que par une unique chaîne, cette situation se 
présente si l'unique chaîne est bloquée par la troisième variable en ques- 
tion. 

Définition 4.12 (d-séparation) 

Soit G = (V, E) un graphe orienté, pour tout triplet (X, Y, Z) de sous-ensembles 

disjoints de V, X est d-séparé de Y par Z dans G ( noté (X | Z | Y) -g) si et seulement 
si toute chaîne (xO^p.-.p} avec x-\ c X et x p G Y est bloquée par Z. 

La d-séparation est certainement moins lisible que la séparation. Cepen- 
dant, il est facile d'automatiser une procédure de reconnaissance ou même, 
avec un peu d'expérience, de repérer directement les sous-ensembles d- 
séparés d'un graphe. 

Exemple 4.9 Dans la figure 4.4 ci-après, 

. non <{1} |{2} | {3}> - il y a deux chaînes : {1 , 2, 3} et {1 , 4, 2, 6, 5, 3). La seconde est blo- 
quée par 2 (qui n'est pas un puits dans cette chaîne) et par 6. En revanche, la première 
est active puisque 2 y est un puits. 

• De même, si on considère la d-séparation de {1} et {3} par {7}, la chaîne {1 , 2, 3} est 

a ‘ ‘ ‘ ue 7 est un descendant de 2, puits de la chaîne. 



• ({3} I {4} I {7}) - toutes les chaînes de 3 à 7 passent par 4 et 4 n'y est jamais un puits. 
Donc toutes les chaînes de 3 à 7 sont bloquées par 4. 


4 C'est exactement le cas dans la sous-section 4.4.4 page 83. 
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FlG. 4.4 Séparation dans un graphe orienté 


4.5.2 Propriétés de Markov dans les graphes orientés 

L'étude des propriétés de Markov dans les graphes orientés - et donc 
de la qualité de représentation des modèles orientés - est à la base du déve- 
loppement du domaine des réseaux bayésiens. On peut ainsi citer [KSC84], 
[Pea87a], [Smi89], etc. 

La définition de la d-séparation montre que la symétrie entre tous les 
voisins d'un nœud dans un graphe est brisée par l'orientation : les puits et 
les descendants des puits jouent un rôle très particulier. Ce rôle se répercute 
dans les propriétés orientées de Markov par l'importance de la notion de 
non-descendant dans ces énoncés. 

Définition 4.13 (Propriétés orientées de Markov) 

Le graphe G et la loi V peuvent vérifier : 

(OP) Propriété orientée de Markov par paire 

si et seulement si Vx, y € V, x et y non adjacents dans G et y G nd (x), 

xiLy|(nd (x) \{y}) 

(OL) Propriété orientée de Markov locale 

si et seulement si Vx G V, 


{x}_iLnd (x) |TT X 


(OG) Propriété orientée de Markov globale 

si et seulement si VA, B, S C V disjoints, 

(A \S | B)-g => A JL B | S 

Définition 4.14 (Réseau bayésien) 

Un graphe orienté vérifiant (OG) pour V est un réseau bayésien de V. 

© 
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Comme pour les graphes non orientés, (OG) représente la plus forte 
propriété que peut vérifier un graphe orienté pour y lire directement une 
indépendance conditionnelle. 

De même que pour les réseaux markoviens, on a : 


Théorème 4.8 


De plus, 

(OG) <=> (OL) =» (OP) 


Il est à remarquer qu'il y a toujours équivalence entre (OG) et (OL), 
contrairement au cas non orienté. Par contre, le théorème 4.6 page 82 reste 
vrai pour l'équivalence entre (OP) et (OL). En particulier, si la loi V est po- 
sitive, alors il y a équivalence entre les trois propriétés orientées de Markov. 


4.5.3 Réseaux bayésiens et factorisation 

De même que pour les réseaux de Markov, il faut maintenant relier pro- 
priétés de Markov et factorisation de la probabilité. Cette factorisation est 
étonnamment simple et suffit à elle seule à expliquer une grande partie de 
l'intérêt porté aux réseaux bayésiens. 

Définition 4.15 (Factorisation récursive) 

Soit une loi de probabilité jointe V[V) et un graphe orienté G = (V, E)- On dit que 
V possède une factorisation récursive selon G si et seulement si pour tout nœud X 
de G, il existe une fonction kx(X, TTx) telle que : 

xev 

De plus, les fonctions kx (kernels ou noyaux de Markov) sont les lois de pro- 
babilité conditionnelles de X étant donné TTx • 


V(V) = n WITTx) 
xev 

Bien sûr, toutes les lois ne se factorisent pas ainsi. Soit (OF) la propriété 
« V se factorise récursivement selon G ». La relation entre factorisation 
récursive et propriétés orientées de Markov peut alors s'énoncer comme 
suit : 


dD 
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Théorème 4.9 


(OF) ^ (OG) 


Par ailleurs, il n'y a pas forcément unicité du graphe G permettant la 
factorisation récursive de V, on appelle classe d'équivalence de Markov l'en- 
semble des graphes permettant une factorisation récursive de V, c'est-à- 
dire l'ensemble des graphes représentant le même modèle d'indépendance. 

Bien plus que pour les réseaux de Markov, la factorisation récursive est 
intéressante aussi pour la représentation de la loi : les noyaux de Markov 
sont des fonctions dépendant chacune d'un unique nœud du graphe. Ce 
qui implique que la représentation graphique de la loi peut être améliorée 
grâce à une localisation des données qui suit exactement le graphe, sans 
structure complémentaire. Le graphe ainsi augmenté représente qualita- 
tivement la loi de probabilité (en indiquant les indépendances condition- 
nelles) mais aussi quantitativement (en permettant les calculs par factori- 
sation). 

Exemple 4.10 Soit lej^raphe C? de la figure 4.4 page 86. Une loi V se factorisant récursi- 
vement par rapport à G peut s'écrire : 

T(1,2,3,4,5,6,7) = V[\).V(3).V{2 | 1,3).P(4 | 1,2).7>(5 | 3 ).V(G | 2,5 ).V(7 | 4) 


P(1) V(3) 



V(7\4) V ( 4 | 1,2) V{6 | 2,5) 


FlG. 4.5 Représentation graphique d'un réseau bayésien - les probabilités conditionnelles 
(ainsi que leurs dimensions) sont représentées pour chaque nœud. 


Ce qui est intéressant à noter est, tout d'abord, la compression que représente une telle 
factorisation : en supposant que toutes les variables sont binaires, V( 1 , 2, 3, 4, 5, 6, 7) repré- 
sente un tableau comprenant 2 7 = 128 valeurs. La factorisation, elle, est représentée par 
un ensemble de tableaux comprenant en tout 2 + 2 + 8 + 8 + 4 + 8 + 4 = 36 valeurs. On 
représente donc exactement la même loi avec trois fois moins de valeurs. 
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La seconde propriété intéressante d'une telle décomposition est que les probabilités 
conditionnelles impliquées dans la factorisation sont très faciles à lire à partir du graphe 
puisqu'elles sont toutes liées à un nœud particulier. En fait, dans la représentation gra- 
phique, on peut joindre à chaque nœud sa probabilité conditionnelle suivant ses parents 
(voir figure 4.5 page précédente), ce qui augmente l'aspect synthétique de la représenta- 
tion. 


4.5.4 Limites 

Tout comme pour les réseaux de Markov, il existe des limites à la ca- 
pacité d'expressivité du modèle des réseaux bayésiens. Les questions sont 
toujours : existe-t-il des lois de probabilité (des modèles d'indépendance) 
qui n'étaient pas représentables par un réseau de Markov mais qui le soient 
par un réseau bayésien ? Existe-t-il des lois de probabilité qui ne soient pas 
représentables par un réseau bayésien 5 ? 

En ce qui concerne la première question, 
l'exemple de la sous-section 4.4.4 page 83 — dont 
le modèle d'indépendance est donné par le ta- 
bleau 4.1 page 84 — est bien représentable par 
un réseau bayésien (voir la figure 4.6). En effet, 
le puits S de Tunique chaîne entre Di et D 2 as- 
sure la dépendance de Di et D 2 étant donné S et 
l'indépendance marginale de Di et D 2 . 

Certains modèles sont cependant probléma- 
tiques. Soit une probabilité sur les quatre va- 
riables A, B, C, D vérifiant le modèle d'indépendance conditionnelle décrit 
dans le tableau 4.2. Ce tableau présente aussi la forme d'un réseau de Mar- 
kov pour cette loi. 



FlG. 4.6 Résolution orientée de la 
figure 4.3 page 84 



TAB. 4.2 Modèle d'indépendance de {A, B, C, D} et un réseau de Markoi 1 le représentant 


Il n'est pas possible de trouver un réseau bayésien représentant ce mo- 
dèle d'indépendance : la structure de base (due aux indépendances margi- 


5 De même que plus haut, une loi est représentable si elle possède une P-map. 
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nales) doit être celle du réseau de Markov présenté (le réseau bayésien doit 
avoir comme graphe non orienté sous-jacent ce réseau de Markov). Mais 
étant donné qu'un réseau bayésien doit être un DAG, l'un de ces nœuds 
doit être un puits. Il est alors facile de vérifier que l'une des indépendances 
conditionnelles (A JL C | {B, D} ou B JL D | {A, C}) sera ainsi nécessairement 
violée. 


4.6 Pourquoi des arcs plutôt que des arêtes ? 


Les deux modèles - orienté et non orienté - ont montré leurs imper- 
fections dans le sens où aucun n'a un pouvoir de représentation au moins 
égal à celui de l'autre. Comment choisir dans ces conditions entre une mo- 
délisation orientée et une modélisation non orientée ? Ou plutôt, puisque le 
suspense n'est pas de mise, pourquoi choisir la représentation sous forme 
de réseau bayésien ? Il s'agit ici d'essayer de lister l'ensemble des raisons 
qui participent à ce choix. 


4.6.1 Factorisation 

Comme simple rappel, un réseau de Markov permet de factoriser la loi 
de probabilité jointe comme suit : 

w)=n*c(v) 

CGC 

où C est l'ensemble des cliques du graphe non orienté. Cette factorisation 
est à comparer à la factorisation récursive des réseaux bayésiens : 

W) = n p (x|n x ) 

xev 

Il est alors aisé de voir les avantages de la seconde représentation : 

• Unicité : la factorisation récursive a le grand mérite d'être unique 
(étant donné le graphe) alors que la factorisation en potentiels ne l'est 
pas. Il existe une famille de potentiels qui vérifient cette égalité. 

• Localisation : alors que dans un réseau bayésien, il semble clair et 
figuratif de localiser l'information dans chaque nœud du graphe, la 
factorisation dans un réseau de Markov localise l'information dans 
chaque clique ; ceci nécessite l'utilisation de la structure seconde qu'est 
le graphe de jonction pour pouvoir localiser aisément cette informa- 
tion. 


® 
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4.6.2 Sémantique et causalité 

L'orientation permet aussi de garantir une certaine lisibilité du graphe. 
Même si le sens des arcs peut être illusoire, ou si la désorientation a le mé- 
rite d'être plus proche des données (puisqu'une corrélation en statistique 
est une opération symétrique), il n'en reste pas moins que l'orientation est 
une aide précieuse pour la lecture et la compréhension d'un réseau. 

Par exemple, la figure 4.7 montre assez clairement comment le théo- 
rème de Bayes est représentable uniquement grâce à l'orientation d'une 
liaison entre deux nœuds. 



V[A, B) = V[A).'P[B | A) = V(B).V(A | B) 

FlG. 4.7 Le théorème de Bayes comme inversion d'arcs 


Il n'y a pas lieu ici de parler très précisément de causalité. Ce domaine 
reste un sujet polémique où tous les avis sont encore représentés. La ques- 
tion de savoir si la causalité est une notion mathématiquement représen- 
table ou non n'est pas tranchée ; de même, celle de savoir si une quelconque 
causalité peut être retrouvée statistiquement à partir d'une base de don- 
nées. Disons simplement que pour l'instant, le domaine est ouvert 6 . 

Toutefois, la causalité est une notion intuitive, qu'un humain comprend 
finalement plus naturellement que la corrélation statistique. Dans le cadre 
d'un processus de construction d'un modèle par un expert, cette causalité 
a donc un rôle important. Pour plus de précisions, on pourra se référer, par 
exemple, à [SGSOO] et [Pea99]. 

D'un point de vue pratique, pour relier la causalité au théorème de 
Bayes représenté dans la figure 4.7 , il semble opportun de représenter la loi 
jointe d'une cause A et de sa conséquence B par la factorisation V(A).'P(B | 
A) : la probabilité que la conséquence se produise - sachant que la cause 
s'est déjà produite - a bien un sens causal. Seuls les réseaux bayésiens, 
par opposition aux réseaux markoviens, sont capables d'une telle repré- 


6 Pour plus de détails, voir principalement [PeaOl]. 
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sentation de la causalité. Un réseau bayésien qui respecte cette causalité est 
nommé réseau causal. 

4.6.3 Pragmatisme 

La phase de construction d'un modèle est bien sûr une phase sensible. 
Il y a principalement deux méthodes pour le construire : soit utiliser l'ap- 
prentissage automatique (et toutes les méthodes qui s'y réfèrent), soit être 
aidé d'experts qui seront capables de transposer leurs connaissances du do- 
maine dans la formalisation du modèle. Cette transposition n'est pas une 
tâche facile. Il est donc important de faciliter le plus possible le travail de 
l'expert. Lui demander de décrire des potentiels de cliques de variables 
semble vraiment difficile. Alors que l'estimation localisée nœud par nœud, 
et si possible utilisant la causalité, est beaucoup plus du domaine de l'ac- 
cessible. Cependant, il ne s'agit pas de se leurrer. Ce travail reste souvent 
très difficile. 
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Propagations dans les réseaux 
bayésiens 


Le modèle représenté par un réseau bayésien n'est pas un modèle sta- 
tique, fermé. Il est capable d'intégrer de nouvelles informations exogènes 
nommées habituellement £ . Celles-ci, en modifiant la vraisemblance de cer- 
tains nœuds, vont modifier les probabilités a posteriori de l'ensemble du 
système. 

D'une manière générale, tout calcul portant sur la distribution de pro- 
babilité associée à un réseau bayésien relève de Y inférence. Certains types 
de calcul ont traditionnellement une plus grande importance, parce qu'ils 
peuvent correspondre à des utilisations pratiques. 

C'est vrai en particulier du calcul de la probabilité d'une variable condi- 
tionnée à un ensemble d'observations. Ce type d'inférence, appelée aussi 
mise à jour des probabilités, est essentiel dans des applications de diagnostic, 
où l'on doit reconsidérer son appréciation de la situation en fonction d'une 
ou plusieurs nouvelles observations. 

Le problème de l'inférence est uniquement un problème de calculs. Il n'y a 
aucun problème théorique ; en effet, la distribution de probabilité étant en- 
tièrement définie, on peut (en principe) tout calculer. 

Il nous semble important de préciser ce point avant d'aborder ce cha- 
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pitre. En effet, notre objectif ici est de présenter des méthodes de calcul pour 
l'inférence dans un réseau bayésien. Notre discussion portera donc sur des 
aspects algorithmiques. 

On nomme une information affectant un nœud X une information élé- 
mentaire sur le nœud X. On distingue deux grandes classes d'informations 
élémentaires : 

• Déterministes : une certaine variable du modèle prend une valeur 
précise : p(X = x,| S) = 1 ; on parle aussi d'instanciation d'une va- 
riable. Une telle information élémentaire est notée Sx ) 

• Imprécises : une certaine variable du modèle ne peut pas prendre une 
valeur :p(X = x|£)=0ou encore plus généralement, la loi d'une 
certaine variable change :P(X|£)/P(X). On note simplement Sx ce 
type d'information élémentaire. 

Pour tenir compte de ces informations, le réseau bayésien doit mettre à 
jour l'ensemble des lois de ses variables. Cette opération, Y inférence probabi- 
liste, a été prouvée NP-difficile dans le cas général ([C0088], [Coo90]). 

Deux classes principales de méthodes exactes sont utilisées pour l'effec- 
tuer : les méthodes dites de propagation de messages étendues par des al- 
gorithmes de coupe (ou de conditionnement) [Pea88a] et les méthodes utili- 
sant des regroupements de nœuds ([LS88], améliorées par [JLO90], [Jen96]). 
Les premières proposent un mécanisme de calcul utilisant la propagation 
de messages le long des arcs d'un graphe sans cycle (la méthode est facile- 
ment généralisable à tous les graphes grâce à un algorithme dit de coupe- 
cycle), les secondes opèrent d'abord des modifications importantes du graphe 
(appelées moralisation et triangulation) pour obtenir une structure secon- 
daire d'arbre de jonction dans laquelle chaque nœud représente une clique 
du réseau bayésien et qui permet d'appliquer un algorithme simplifié de 
propagation de messages (méthodes dites de clustering). 

Enfin, il faut noter aussi qu'existe un certain nombre de méthodes ap- 
prochées à base de méthodes stochastiques type MCMC ([Hen88], [GRS96], 
[MRR + 53]), comprenant entre autres les échantillonneurs de Gibbs ([Nea93], 
[Yor92]). 

Les sections suivantes s'appliquent à décrire plus exactement ces diffé- 
rents calculs. 


5.1 Propagation par messages locaux dans un arbre 

Pour un réseau bayésien (V, G, [P(X | flx)] XeV ), une méthode de ré- 
solution exacte du problème du calcul des différentes probabilités margi- 
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nales a posteriori (P(X | £ )) a été proposée en premier par [KP83]. Cette mé- 
thode procède par calculs locaux, en chaque nœud du graphe. De proche 
en proche, chaque nœud communique à ses voisins les informations qu'il a 
collectées, jusqu'à ce que tout nœud puisse mettre à jour sa probabilité mar- 
ginale en fonction de l'ensemble de l'information £ reçue par le graphe. 

Rappelons que l'information £ exogène se compose d'informations élé- 
mentaires déterministes ou imprécises sur un sous-ensemble des nœuds du 
graphe. 

Cette propagation agit par transmission de messages entre nœuds voi- 
sins, transitant par les arcs entre ces nœuds. Le but étant que chaque nœud 
apprenne toute l'information £ et fasse connaître à l'ensemble du graphe 
l'information élémentaire qui le concerne, il paraît assez naturel de consi- 
dérer qu'au moins deux messages transiteront par chaque arc. En effet, 
pour deux nœuds X et Y, un message doit transiter de X vers Y pour que 
Y connaisse l'information en X et réciproquement. Il faut noter aussi que 
les choses se compliquent nettement lorsque le graphe n'est pas un arbre et 
qu'il peut alors exister plus d'un chemin de X à Y. Dans un premier temps, 
nous nous restreindrons donc au cas d'un arbre. 


5.1.1 Décomposition de l'information 

Comme le graphe que l'on considère ici est un arbre, il est par définition 
(voir A. 11 page 344) connexe et sans circuit. Autrement dit, il existe une 
unique chaîne entre deux nœuds de ce graphe. Cette propriété permet de 
partitionner le graphe relativement à un nœud X : 

(+) les nœuds dont la chaîne vers X passe par un parent de X ; 

(— ) les nœuds dont la chaîne vers X passe par un enfant de X ; 

(o) le nœud X lui-même. 

Soit une information £ sur l'ensemble du graphe, on peut de même 
la partitionner en trois sous-ensembles différents relativement au nœud 
X : £ x , £ x et £ x qui correspondent aux informations élémentaires sur des 
nœuds respectivement de type (+),(—) et (o). 

Supposons, dans un premier temps, qu'aucun des nœuds considérés 
ici ne soit ni une feuille ni une racine ni n'ait été observé : tous les nœuds 
considérés ici ont donc au moins un parent, un enfant et peuvent toujours 
séparer l'information en £ + et £ . 

Vx G T>x, en appliquant le théorème de Bayes (voir Bayes-3 page 354) à 



P(x | £) = P(x | £+, £ x ) oc P(£ x | x, £+) • P(x | £+) 
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Puisque toute chaîne d'un nœud U de type (+) vers un nœud Y de type 
(— ) doit passer par X et que pour cette chaîne, X ne peut pas être un puits, 
il y a d-séparation de ces deux nœuds conditionnellement à X. Ce qui a 
comme conséquence de rendre indépendantes les informations £ x et £ x et 
donc de permettre d'écrire P(£^ \x,£ x ) = P(£^ | x). D'où : 

P (x | £) oc ?{£ x | x) • P(x | £+) 
oc À(x) • 7t(x) 


Note 5.1 Rappelons que la proportionnalité entre ces deux quantités est suffisante pour 
calculer P(x | £) puisque, cette valeur définissant une probabilité, sa somme sur le domaine 
doit être égale à 1 : 


P(x [ £) 


À(x) ■ 7t(x) 

L [A(x') • 7t(x')] 


x'en x 


Dans cette factorisation, l'information (7t(x) = P(x | £ x )) venant de la 
zone (+) intervient comme une loi a posteriori alors que l'information (À(.) = 
P ( £ x | x)) venant de la zone (— ) apparaît comme une vraisemblance. 

Reste à calculer ces deux facteurs. Supposons que le nœud X a pour 
parents les nœuds Ui , . . . , U n et pour enfants les nœuds Yi , . . . , Y m . Le 
principe sera toujours d'utiliser la possibilité de partitionner l'information 
grâce à la structure d'arbre du réseau bayésien. 



FlG. 5.1 Les différentes zones d'informations dans un arbre 


En remarque préliminaire à ces calculs, notons que l'on peut également 
partitionner : 


v. J 
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• £ x = (J é’xYj où £xYj représente l'ensemble des informations élé- 

mentaires sur des nœuds pour lesquels la chaîne vers X passe par Yj. 

• = U £xu t où ^xUi représente l'ensemble des informations élé- 

1<i<m 

mentaires sur des nœuds pour lesquels la chaîne vers X passe par Ut. 


► Calcul de À(x) 

De même que plus haut, toute chaîne d'un nœud destinataire d'une 
information de £xy ] vers un nœud destinataire d'une information de £x \ ] , 
avec j ^ j', passe nécessairement par X qui n'est pas un puits de cette 
chaîne et qui donc d-sépare ces deux nœuds. D'où : 

A(x) = P(£ x | x) 

= P( U £x Yj I *) 

1 < j <ttl 

À(x) = n P ^x Yj I X) (5.1) 

1<j<m 


Une fois de plus, on doit partitionner chaque £x\ ] entre £ XY , l'informa- 
tion venant des parents de Yj différents de X (les Zt, voir figure 5.1 page 
précédente) de Yj et de £ XY , l'information venant des enfants de Yj. 

Il faut noter que : 

• Yj d-sépare £ XY . et £ XY , . En effet, toute chaîne d'un nœud comportant 
une information de £ XY . vers un nœud comportant une information 
de Z XY . passe par Yj qui n'est pas un puits de cette chaîne. 

• Les Z\ d-séparent X de £ XY , (ce ne sont pas des feuilles, donc ils ne 
comportent pas d'information et toute chaîne depuis un nœud com- 
portant de l'information de £ XY . vers X passe par un des Z L qui n'est 
pas un puits de la chaîne). 

Avec £>z = U Z] x V Zl x . . . x P Z[ , on peut alors écrire chaque terme de 
ce produit comme suit : 


P(£xYj I x) = P(Z+ Yj ,Z XYj | x) 


p (^xYj ’ ‘■'XYj I x> Dj > z) ■ P (y j , z | x) 

yj eü Yj ,zev z 


z est le vecteur de valeurs des z\. D'après les d-séparations précitées, 
= H p ^xYj I z ) • p (^xYj I yi) • p (yj- z I x) 

yj ,z 


dD 
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avec l'application du théorème de Bayes pour P ( £ XY \ z) et une factorisa- 
tion pour P(yj, z | x). 


— P(f XYj I Uj) ■ 

yj 


?[£ + 


XYj 


P(z 


‘-'XYj • 


Plzj 


• P(hj I z,x) ■ P(z I x) 


P ( £ xy . ) est une constante durant ce calcul. Étant donné que les Zi sont in- 
dépendants marginalement de X : P(z | x) = P(z) 

P(£xYj I x) oc ^P(£ xy . I hj) • P(z | £ XYj ) • P(yj | x,z) 

yj 


En remarquant les rôles analogues des Ut par rapport à X et des Z\ par 

rapport aux Yj, on peut noter £ XY = où £ Yj z t est l'ensemble de 

’ i 

l'information dont la chaîne vers Yj passe par Z\. On peut alors écrire, par 
d-séparation conditionnellement à Yj : 

p^i^xy) =n p ^i^zj 

i 


On obtient finalement que : 

À(x) oc [] ^ P (^XYj I ' Y- p (yj oc, z) P ( ^i I £y]Z\) (5-2) 

iZiS-m-yj zeT> z i 


► Calcul des 7t(x) 

£ x ayant été partitionné en (J £ X u t où Z X u t représente l'ensemble 

l<i<m 

des informations élémentaires sur des nœuds pour lesquels la chaîne vers 
X passe par LU, on peut écrire (avec Vu = Du, x . . . x Vu n ) : 

7t(x) = P(x I ££) 

= P(X | £ X U, , • • • , ^-XUn ) 

= ^ P(x | u) • P(u I £xU, , • • • ,£ X u n ) 

VLGVu 

et par d-séparation conditionnellement à X des £ X u t (u est le vecteur des 
Ui), 

ttM - p (x I u) • ]^[ P(ui | £ XU J (5.3) 

dD 
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De même que pour le calcul de À, il est nécessaire de séparer chaque 
£xu t en deux parties : £ xu . représente l'information venant des parents de 
li i et £ xu représente l'information venant des enfants de Ut autres que X 
(les Vp, voir la figure 5.1 page 96). Alors, en appliquant le théorème de 
Bayes à P(x [ £xuj puis la d-séparation sachant Ut de £ xu . et de £ xu . : 


P(Ui | < 5 xU t ) — P(U -1 | ^xu t > ^XUi ) 


^ P(£xu t I U i- > ^XUi ) ■ ^( U i. I ^XU t ) 

OC P(^ XUl I U i) • P( u i I ^xuj 


Pour le dernier partitionnement, on procède comme suit : £ xu . se par- 
titionne en U^UiVjc qui représentent, pour chaque k, l'ensemble des infor- 

k 

mations élémentaires dont la chaîne vers U| passe par Vp et qui sont tous 
d-séparés par U|. D'où : 

p (£ X u t I u i) = P(|J fu tVk I u i) 

k 

= J^[ P(^U iVk i Ui) 

k 


Et finalement. 


7 t(x) OC ^ P(X 
ueü u 


u 


n 

Ki<n L 


P(uî | £ 


XU t J 


n 


V k 


Ui 


(5.4) 


► Synthèse et écriture itérative 

Les équations 5.2 page précédente et 5.4 nous donnent donc 

P(x | £) oc P(£ x | x) • P(x | £ x ) = À(x) • 7t(x) 


A(x) oc rii<j<m 


Pld’xYj I Pj) ‘ ^zGÎ ? 2 P(Pj I X,z) • ni P(ZI I £\ ) Zi] 


7t(x) oc Lugüu P( x ! u) • n 1<i<n 


P( u i | £ xu . ) • Rk P(^Ui V k I Ui) 


(5.5) 

Les expressions entre crochets dans l'équation 5.5 sont d'une certaine 
façon des informations localisées provenant respectivement d'un enfant de 
X pour À et d'un parent de X pour 7t. On appellera Ày (x) la contribution de 


dD 
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l'enfant Yj dans À et 7t u . (x) la contribution du parent U| dans 7t. D'après les 
équations 5.1 page 97 et 5.3 page 98, on peut alors écrire : 


A Yj M = P(£x Yj ! X) 

= Y p ^xYj i m) ■ Y P(y, I X, z) ■ | P( Zl | £\ . 2.1 ) 

Ttx(Ui) = P(Ui | £xU t ) 

= P(ut | £ xu .) • n p ( £ ’u l v k I Ut) 


Il s'agit maintenant de s'apercevoir d'identités ou d'analogies entre en- 
sembles d'informations : 

• £ xy est l'ensemble des informations dont la chaîne vers X passe par 
un enfant de Yj. Puisque le graphe est un arbre, £ XY . est donc aussi 
l'ensemble des informations dont la chaîne vers Yj passe par un de 
ses enfants : £ÿ. ; mais alors, par analogie avec Pf£ x | x) = À(x), 

p (^xYj I Uj) = p (^Yj I yj) = A(yj) 

• £ xu . est l'ensemble des informations dont la chaîne vers X passe par 

un parent de Ut. £ xu . est donc aussi l'ensemble des informations dont 
la chaîne vers Ut passe par un de ses parents : ; mais alors par 

analogie avec P(x | £ x ) = 7t(x), 

p (ut | £ xu . ) - P(ut | £^.) = 7t(ut) 

• Si P(ut | £ X u t ) = Ttx(ut) alors P(z t | £ VjZl ) = n Yj {zi). 

• Si P(£xYj I x) = À Yj (x) alors P(£uiV k I u t ) = A V]c (ut). 

Afin de généraliser cette équation, on remarque que : 

• Les (Yj) sont les enfants de X : Ex- 

• Les (Ut) sont les parents de X : TTx. 

• Les (Vk) sont les enfants d'un U (parent de X) sauf X : Elu \ {X}. 

• Les (Zt) sont les parents d'un Y (enfant de X) sauf X : n Y \ {X}. 
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Ceci nous permet de réécrire l'équation 5.5 page 99 : 

P(x | £) oc À(x) • 7t(x) 


A(x) oc n a yM 
YeEx 

7t(x) OC £ P ( x I u) • n TtxlUi) 
uGi>n x u t en x 

(5.6) 

avec Y G Ex et U G TTx, 


AyM oc L A(y) • Y. P(y|x,z)- n "yM) 

yeX> Y zë^nyCix} ZieTT Y \{X} 

Vu G î>Ui 7tx(u) oc 7t(u) • n A v (u) 

VGE U \{X) 



FlG. 5.2 Messages issus de X dans une propagation type Pearl 


L'équation 5.6 synthétise la propagation de l'information. Chaque 7tx(U) 
et Ay(X) sont les contributions respectivement du parent U et de l'enfant Y 
au calcul de la probabilité a posteriori de X. On peut alors considérer que 
les parents et les enfants de X envoient ces messages vers X, messages qui 
permettent à X d'envoyer à son tour ses propres messages vers ses voisins 
(voir figure 5.2 ). 

Dans cette méthode proposée par [KP83] et [Pea86], la propagation des 
messages dans un arbre consiste en deux flux simultanés : l'un pour le- 
quel les messages (les 7t-messages) transitent dans le sens de l'orientation 
des arcs (des racines vers les feuilles), le second où les messages (les À- 
messages) transitent dans le sens inverse. 

Il faut cependant remarquer quelques règles qui dirigent les itérations 
de l'algorithme : 


( 101 ) 
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® X a besoin des messages de tous ses voisins pour pouvoir calculer 
P(X|£). 

® Xa besoin des messages de tous ses enfants pour calculer À(X). 

© X a besoin des messages de tous ses parents pour calculer 7t(X). 

® Le nœud Y qui veut envoyer un À-message Ày(X) vers son parent X a 
besoin des À-messages de tous ses enfants et des 7t-messages de tous 
ses parents sauf X. 

© Le nœud U qui veut envoyer un 7t-message 7tx(U) vers son enfant X a 
besoin des 7t-messages de tous ses parents et des À-messages de tous 
ses enfants sauf X. 


► Cas des racines, des feuilles et des nœuds informés 

Pour le cas des racines (nœuds sans parent) et les feuilles (nœuds sans 
enfant), les formules se simplifient : 

• si X est une racine : £ x = 0 et donc 7t(x) = P(x | £ x ) = P(x). X 
n'envoie pas de À-message. Pour envoyer un 7t-message vers son en- 
fant Y, il a besoin des À-messages de ses autres enfants. En particulier, 
s'il n'a qu'un enfant, il peut envoyer directement ce message (qui est 
exactement 7t(x) = P(x)). 

• si X est une feuille : £ x = 0 et À(x) = V[£ x I x) = 1 (par convention x ). 
X n'envoie pas de 7t-message. Pour envoyer un À-message vers son 
parent Y, il a besoin des 7t-messages de ses autres parents. En particu- 
lier, s'il n'a qu'un parent, il peut envoyer son À-message (qui est cette 
fonction constante à 1). 

• si X est observée : £ x / 0. Il faut alors écrire : 

P(x I £x> £ X . £ x) « p (£x I X- £ t £ x) • p (* I £ X > £ x) 
ex P(££ | x) • ?{£ x | x) • P(x | £+) 

Tout se passe comme si X possédait un enfant supplémentaire ex qui 
lui envoyait un message À ex (x) = P(££ I x). 

Toute observation élémentaire sur un nœud X est donc transformée 
en une feuille virtuelle ex, enfant de X et qui envoie non pas un mes- 
sage non informatif (À(x) = 1) mais un message tenant compte de 
cette observation. Il est à noter que, puisque le nœud virtuel ajouté 
ex est une feuille, le graphe reste un arbre. 

1 En fait, il s'agit pour À(x) d'être constant quel que soit x. En effet, À est une vraisem- 
blance de l'information • Si celle-ci n'existe pas, il n'y a aucune raison que la vraisem- 
blance de cette information nulle varie en fonction de la valeur de x. 
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5.1.2 Algorithme de propagation : polytree propagation 

D'après le schéma de propagation de l'équation 5.6 page 101, chaque 
nœud X peut être dans cinq états différents : 

® Attente de messages : en notant ux le nombre de ses voisins, tant que 
X a reçu moins de nx — 1 messages, il ne peut rien faire. 

® Calcul de messages de collecte : X a reçu nx — 1 messages, il est donc 
capable de calculer le message vers le seul voisin Y qui ne lui a rien 
envoyé. D'une manière générale, on dira que X est en phase de col- 
lecte. 

© Attente de réponse : X est en attente d'un message de ce dernier voi- 
sin. 

© Calcul de messages de distributions : X a reçu le dernier message. Il 
est en mesure de calculer À(x), 7t(x) et P(x [ £). Il est aussi en mesure 
de distribuer les nx — 1 messages qu'il n'a pas encore envoyés. 

© Fin : X est au repos. L'algorithme est terminé en ce qui le concerne. 

L'algorithme prend alors cette forme générale : 


Théorème 5.1 

Soit un réseau bayésien de graphe = (U, E), l'algorithme suivant permet de 
calculer P(X | S) pour tout nœud X du réseau bayésien. 

© Tout nœud de U à l'état 1 . 

® 1-lcoUecte = U 

© Tant que Id-coWecte 0 

(a) 3X G U co uecte tel que X peut passer à l'état 2. 

(b) ld co Uecte = 1-1 collecte \ 

(c) X passe à l'état 2 et envoie à Y son message puis passe à l'état 3. 

© Le dernier Y peut passer à l'état 4. Udistrib = {Y}. 

© Tant que U distrlb / 0 

(a) 3Y G L1 cll S t T lt) &t LL d | sb rib = hldlstrib \ {Y}- 

(b) Y passe à l'état 4, envoie ses messages à tous ses voisins et passe à 
l'état 5. 

(c) Lldistrib = Ddistrib U "&Y 

Démonstration 

Deux points sont à prouver : 

• Étape 3a : à toute étape, il existe un nœud X pouvant servir de candi- 
dat à cette étape. 


( 103 ) 
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La preuve se fait par récurrence : 

o étape initiale 0 : le graphe G est un arbre. Il existe donc au moins un 
nœud Xo de G de degré 1 (n'ayant qu'un voisin). Ce nœud est un 
candidat pour la première itération de l'étape 3a. 
o étape courante i. : soit Ut le U co u ecte de l'étape i. et Vt = U \ U| c'est 
à dire l'ensemble des nœuds déjà traités dans des itérations précé- 
dentes. 

Hypothèse de récurrence : Vj < i, le graphe réduit de G sur Uj est 
un arbre. 

Il existe donc un nœud X| de degré 1 (et de voisin Y) dans ce sous- 
graphe. 

• Soit Xt est aussi une feuille dans G et est alors candidat pour cette 
itération. 

• Soit Xj n'est pas une feuille dans G. Tous ses autres voisins dans 
G font alors partie de Vt, c'est-à-dire, tous ses voisins autres que 
Y ont déjà été visités et ont déjà envoyé leurs messages. 
Nécessairement, ces messages ont été envoyés vers X|. 

En effet, soit B k un tel voisin € Vt et k < i l'étape dans laquelle B k 
a envoyé un message vers un nœud A k . Si A k n'est pas X| alors 
à l'étape k + 1 , Ak et X| appartenaient au graphe réduit sur U k+ i 
mais pas B k . Or la seule chaîne de Anvers X t dans l'arbre G passe 
par B k . Le graphe réduit de l'étape k+ 1 n'était donc pas un arbre. 
Ce qui est absurde, par hypothèse de récurrence. 

Donc, ce nœud X| est un candidat pour l'étape i. Comme c'est un 
nœud d'ordre 1 dans l'arbre réduit de G sur Vt, le graphe réduit 
sur V| + i = Vt \ X| est aussi un arbre. 

• Etape 5 : à la fin de cette étape, tout nœud est à l'état 5. 

Le schéma général de l'étape 5 est une recherche en profondeur (ou 
en largeur) d'abord. Etant donné que G est connexe, tous les nœuds 
vont être visités par cette étape ; chaque nœud visité passant à l'état 5. 
On est assuré que tous les nœuds peuvent calculer leur probabilité 
marginale a posteriori P(. | 8). 

□ 


5.2 Conditionnement global 

5.2.1 Principe de la coupe 

L'algorithme qui vient d'être décrit en détail ne s'applique que sur les 
réseaux bayésiens dont le graphe est un arbre. Le problème se pose de 
l'étendre à tout réseau bayésien. La méthode proposée également par [Pea86] 
consiste à trouver un ensemble S de variables qui, en supprimant les arcs 
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qui en sont issus, permettent d'obtenir un graphe réduit qui soit un arbre. 
Il s'agira alors, pour chaque ensemble de valeurs possibles des variables 
de S, de calculer une propagation dans cet arbre, puis de réussir à agréger 
l'ensemble de ces propagations. 

Cet algorithme s'appelle l'algorithme du coupe-cycle ou, plus générale- 
ment de conditionnement ( conditionning ). Sa complexité est bien exponen- 
tielle en fonction du nombre de variables de S. 


5.2.2 Propagation conditionnée 

Soit un réseau bayésien sur un graphe G = (V, E) ; instancier une va- 
riable X e V correspond non pas à la supprimer du graphe mais au moins 
à supprimer les arcs qui en sont issus. C'est cette opération qui est utilisée 
pour obtenir un graphe réduit sans cycle à partir de G . 

De manière générale, étant donné S C V un ensemble de variables, on 
note cr(E, S) l'ensemble des arcs de E qui n'ont pas d'origine dans S. S est 
un ensemble de coupe si le graphe réduit (V, cr(E, S)) est un arbre. 

Soit une information £ et un ensemble de coupe S = {Si, . . . ,S n }, il 
s'agit maintenant de calculer P(X | £) pour toute variable X de V. 

Ceci est toujours vrai : 

P(x|£)= X [P(x|£,s)-P(s|£)] 

S6Ü S 

En fait, le terme P(x | £ , s) peut être calculé facilement dans le graphe 
réduit C V, cr( E , S ) ) (puisque l'instanciation des variables de S par les valeurs 
s permet de couper le graphe de manière à obtenir un arbre). 

Reste à calculer la valeur de P(s | £). Ce calcul se mène récursivement : 


P(si , • • • , s n | £\ , 

• . . ,£e) OC 

P(£e 1 S] , . . . , S n , £~\i • • 

• > £e— 1 



■ P ( s i , . . . , s n \ £], . . 

• > 1 

P(si , • • • , s n | £\ , . . 

• , £ e — 1 ) « 

P(£e— 1 1 Si , . . . , Sn, £"\) ■ ■ 

• > S e -2 



• P (s i , . . . , s n «Si , • • 

• , £e-2 

P(si,...,s n 

1 £l,£2 ) OC 

P{£2\s^,... 

, Sn, £l 



•P(si,..., 

i Sn Si 

P(si 

S n | ^l) OC 

P(£i 1 sn 

. . . , S n 



•P(si, 

. . . , S n 


GD 
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Chaque terme P(£t | si , . . . , s u , , . . . , £t_i ) peut lui aussi être calculé 
par une propagation dans le graphe réduit. Reste à calculer la loi jointe a 
priori P(si , . . . , s n ). 

Le calcul par une phase d'initialisation a été proposé par [SC91]. Sa- 
chant que les nœuds Si sont numérotés en suivant un ordre topologique, 
on a : 

P(S 1 ,.. • ,S n ) = P(si) • P(S 2 | Si) • • P(s n | St,. . . , S n _l ) 

En notant V = (Vi , . . . , V n ) l'ensemble des variables numérotées éga- 
lement en suivant un ordre topologique, il suffit maintenant d'utiliser les 
sous-graphes réduits créés : 

• Par les variables de Vi à Si 2 . Ce graphe est un arbre (autrement Si ne 
serait pas la première variable de coupe) et crée un réseau bayésien 
représentant P(V| , . . . , Si ). Ce qui permet de calculer P(si ). 

• Itérativement, par les variables de Vi à Si. {Si , ... , S i } est un en- 
semble de coupe pour ce graphe. Il est donc aisé de calculer en une 
propagation les valeurs de P(Ci | Ci , . . . , Ci_i ). 

Le nombre d'itérations nécessaires pour calculer une telle propagation, 
dans un graphe dont S est l'ensemble de coupe, est égal au produit des 
tailles des domaines des différentes variables de la coupe. 

^itération = n \v Si \ 


5.3 Arbre de jonction 


Comme le montrent les sections précédentes, une propagation de mes- 
sages dans un arbre est aisée. Afin de traiter les graphes plus généraux, la 
section présente propose une méthode où il s'agit de couper des arcs afin 
d'obtenir un arbre. Une autre méthode, proposée initialement par [LS88] et 
[JLO90], a pour principe de fusionner des nœuds afin d'obtenir une struc- 
ture dite d ’ arbre de jonction. 


5.3.1 Moralisation et Triangulation 

La section 4.4.3 page 82 présentait une factorisation de la probabilité sur 
un réseau de Markov. 

w)=n*c(v) 

CGC 

2 3) tel que Si = Vj . 


QÔTl 
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où C est l'ensemble des cliques du réseau de Markov et Vc(V) est un po- 
tentiel ne dépendant que des variables de C. Le but de cette partie est de 
transformer un réseau bayésien en un réseau de Markov afin de pouvoir 
utiliser cette factorisation. 

Définition 5.1 (Graphe Moral) 

Soit un graphe orienté G = (V, E), le graphe moral, noté G m = (V, E m ) de G est 
un graphe non orienté obtenu par : 

(u — v) € E m [(u— >v) € E] ou [(v— >u) G E] ou [ 3 w G V, u,v C fT w ] 



Graphe Ci 


Graphe G 


FiG. 5.3 Moralisation d'un graphe 


Le graphe moral est obtenu en « désorientant » les arcs et en « mariant » 
les parents d'un même nœud. Le graphe moral a donc la propriété de créer 
une clique pour chaque nœud et ses parents (par exemple la clique H,I,E,G 
dans la figure 5.3 ). 

Les potentiels fusionnent toutes les variables de la clique C en une 
unité d'ordre supérieur 3 . Cependant, une variable peut apparaître dans 
plusieurs cliques différentes (elle peut être le parent de plusieurs nœuds 
différents par exemple). On peut ainsi construire une relation binaire entre 
cliques, caractérisant les couples de cliques (Ci , C2) partageant une ou plu- 
sieurs variables. Ces variables forment le séparateur entre ces deux cliques 
S 12 = Ci n C2. Ce qui permet de définir une structure seconde sur C l'en- 
semble des cliques : 

Définition 5.2 (graphe de jonction) 

Soit G = (V, E) un graphe non orienté ; soit C l'ensemble des cliques de G. On 

3 Unité qu'on pourrait considérer comme une unique variable aléatoire. 
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Graphe G m 


Graphe de jonction 


FlG. 5.4 Graphe de jonction du graphe 5.3 page précédente 


nomme graphe de jonction le graphe (C,Ec) vérifiant : 

(Ci,C2)€Ec <(=)> Ci n C2 / 0 

On nomme S 12 = Ci n C2 le séparateur des cliques Ci et C 2. 

Le graphe de jonction n'est pas un arbre. Dans le contexte de la circula- 
tion de messages, il existe toutefois deux types de cycles dans ce graphe : 
des cycles pour lesquels tous les séparateurs sont d'intersection non nulle 
et les cycles où les séparateurs sont d'intersection nulle. 

Exemple 5.2 Dans la figure 5.4 , (CE, EDF, HIEG) est un cycle de la première espèce, qui 
pourrait être supprimé facilement (en retirant un des arcs) sans perdre la possibilité de 
communiquer de l'information; par contre, le cycle (ABC, BD, EDE, CE) est un cycle qui 
ne possède aucun arc redondant. 

Un graphe de jonction minimal est un graphe de jonction qui ne possède 
aucun arc redondant. D'un point de vue général, le graphe de jonction mi- 
nimal d'un graphe G est un arbre si et seulement si ce graphe vérifie une 
propriété de 'décomposabilité'. Cette propriété revient, pour un graphe 
non orienté, à celle de graphe triangulé (voir par exemple [CDLS99] ou 
[Lau96]. 

Définition 5.3 (graphe triangulé) 

Un graphe non orienté est un graphe triangulé si et seulement si tout cycle de 
longueur supérieur à 3 possède une corde (c'est-à-dire une arête reliant deux nœuds 
non adjacents dans le cycle). 

Le graphe de jonction minimal d'un graphe triangulé est un arbre de jonction. 
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Cette définition revient à dire que tous les cycles minimaux d'un graphe 
triangulé sont de longueur 3. 

La triangulation est l'opération qui a pour but d'obtenir un graphe tri- 
angulé à partir d'un graphe non orienté. Si G est un graphe orienté, on note 
G m son graphe moralisé, puis triangulé. 

Un graphe triangulé a principalement une propriété utile pour la pro- 
pagation dans cette structure : la propriété dite de l'intersection courante. 

Propriété 5.4 (intersection courante) 

Un graphe G possède la propriété de l'intersection courante si ses cliques peuvent 
être énumérées dans un ordre (Ci , . . . , C m ) tel que : 

Vi, 3) < i, Ci n |J [Cr] C Cj 

Ici 


Théorème 5.2 

Un graphe triangulé possède la propriété de l’intersection courante. 

Cet ordre d'énumération qui intervient dans la propriété de l'intersec- 
tion courante permet de définir exactement Y arbre de jonction. 

NOTE 5.3 La propriété de l'intersection courante précise qu'il existe un tel ordre mais pas 
son unicité : l'arbre de jonction n'est donc pas unique. 



graphe G m 


Arbre de jonction 


FlG. 5.5 Graphe triangulé du graphe de la figure 5.3 page 107 et arbre de jonction 


Dans l'arbre de jonction, la propriété de l'intersection courante se lit 
comme suit : soit deux cliques Ci et C 2 du graphe G m , alors tous les sé- 
parateurs (et les cliques) de la chaîne de Ci à C 2 dans l'arbre de jonction 



www.frenchpdf.com 



5.3. Arbre de jonction 

associé contiennent Ci Cl Cz- Ainsi, dans la figure 5.5 page précédente, la 
chaîne de (A, B, C) à (C, D, E) est : 

{ (A, B, C), [B, C], (B, C, D), [C, D], (C, D, E)} 

Tous ces sous-ensembles contiennent bien le nœud C. 


5.3.2 Propagation dans l'arbre de jonction 


La propagation dans l'arbre de jonction, algorithme de la famille des 
algorithmes dits de clustering, repose sur la notion de potentiels et sur la 
factorisation en potentiels de cliques et séparateurs : 


P(V) 


n cg c^c(v) 

n S6 5^s(v) 


où C est l'ensemble des cliques du graphe et S l'ensemble des séparateurs 
de l'arbre de jonction. 

Le but de la propagation dans un arbre de jonction est que chaque po- 
tentiel de clique soit actualisé, en fin de calcul, pour devenir la loi jointe 
a posteriori des variables de la clique. La cohérence de potentiels permet de 
s'assurer que la marginalisation pour une variable des différents potentiels 
de cliques dont elle fait partie donne le même résultat (on peut obtenir la 
probabilité marginale d'une variable en marginalisant le potentiel de n'im- 
porte quelle clique dont elle fait partie). 

La propagation suit le principe suivant : 

• Initialisation : 

VC| G C, énumérées dans Tordre de la propriété courante. 


^C t = n p ( x I n x ) 

xeQ.x^Cj ,j<i 


VS G S, T'g = 1 (fonction constante). 

• Collecte : soit une clique Ci dont toutes les cliques adjacentes C| c sauf 
une unique Cj ont calculé leurs . Alors on met à jour successive- 
ment les potentiels du séparateur S y puis de la clique Sj de la façon 
suivante : 


A, b) = 


L '•Li 

CASij 




u/1 

o 


Q \j/0 
Sij 


On itère cette étape tant qu'il existe une telle clique (noter que les 
nœuds pendants de l'arbre de jonction initient cette propagation). 
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• Distribution : le dernier nœud de l'étape précédente, racine de la 
propagation, distribue vers tous ses voisins (qui feront de même) en 
utilisant exactement les mêmes formules que ci-après. 


Ci\Sij 

q/2 

q/2 _ ^jl S M 

c j c i tpi 

Sij 


Il est à noter que la cohérence (calcul de la probabilité marginale d'un 
nœud X identique dans chaque clique contenant X) n'est atteinte qu'à la 
fin de la propagation ou plus précisément, lorsque M ;2 a été calculé dans 
chaque clique contenant la variable X. 


5.4 Méthodes approchées 

Seuls les réseaux bayésiens très complexes, notamment ceux qui com- 
portent beaucoup de cycles, doivent encore utiliser des algorithmes appro- 
chés. Ceux-ci sont principalement de deux types : 

• les algorithmes qui utilisent des méthodes exactes mais opèrent seule- 
ment sur une partie du graphe ; 

• les algorithmes qui utilisent des méthodes stochastiques (simulations). 

5.4.1 Méthodes exactes sur des topologies approchées 

Ces méthodes sont relativement récentes et sont globalement réparties 
en deux écoles distinctes. La première, suivie par [Kjæ93] et [Rjæ94], ex- 
ploite le fait que certaines dépendances du réseau sont faibles, c'est-à-dire 
que, qualitativement, il existe un arc entre des nœuds X et Y parce que ces 
variables ne sont pas exactement indépendantes l'une de l'autre, mais que, 
quantitativement, cette dépendance est insignifiante ; autrement dit, les va- 
riables X et Y se comportent presque comme si elles étaient indépendantes. 
L'idée de l'algorithme de propagation est alors d'éliminer de tels arcs, ren- 
dant ainsi X et Y indépendantes : les calculs en sont accélérés, la taille des 
matrices de probabilité conditionnelle en est réduite et l'erreur engendrée 
reste raisonnable (Jensen cite un exemple dans lequel il réduit les temps de 
calcul drastiquement tout en limitant l'erreur à moins de 5 %). 

La philosophie de la deuxième école est légèrement différente : il s'agit 
de conserver le graphe d'origine, mais de n'effectuer la propagation des in- 
formations que partiellement. Là encore, plusieurs méthodes sont utilisées : 
[HSC89] et [D'a93] réalisent la propagation dans la totalité du réseau, mais 
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n'utilisent que des sous-parties des matrices de probabilité conditionnelle. 
[D'a93], par exemple, suppose que les lois de probabilité des variables sont 
quasi certaines, c'est-à-dire que les variables possèdent une valeur ayant 
une probabilité beaucoup plus élevée que les autres. 

5.4.2 Méthodes stochastiques 

Pour traiter les réseaux bayésiens complexes, hormis les modifications 
de topologie décrites ci-dessus, il existe aussi un ensemble de méthodes 
reposant sur des principes stochastiques. 

Une étude statistique classique consiste souvent à rechercher les para- 
mètres de la loi n suivie par un processus en utilisant une base de données 
(échantillons) qui permet de calculer des estimateurs approchés des diffé- 
rents paramètres de n (moyenne, écart-type, etc.). 

Cette estimation est en fait le calcul de la moyenne d'une fonction T 
pour tous les échantillons de la base grâce à : 

1 N 

1=1 

où Xh) est le l ème échantillon de la base des N cas ; EU -T 7 ) (espérance mathé- 
matique de T) est l'estimateur recherché qu'on approche par la moyenne 
des JE(X (t) ). Par exemple, si T est l'identité, EU-? 7 ) ~ Hili [X (l) ] /N permet 
d'estimer la moyenne de la loi 7t. 

Bien sûr, cette approximation est d'autant meilleure que la taille de la 
base est importante. L'idée de départ des méthodes stochastiques est donc 
d'utiliser ce que l'on connaît de la loi étudiée pour générer automatique- 
ment des échantillons d'une base de données représentative de cette loi 
(génération d'exemples); c'est donc bien de la simulation. Il suffit alors 
d'utiliser cette base simulée pour calculer les différents estimateurs. 

Entre autres, on pourra retrouver les lois marginales par U(X| = x0 sa 

X ^ =M : on assimile la probabilité que X L soit égal à Xj à la fréquence d'oc- 
currence de X, = xt dans la base de données 4 . 

À partir de ce même principe, différentes méthodes sont apparues, qui 
se distinguent par leur façon de mener les simulations, de générer la base 
d'exemples en fonction de différentes connaissances de la loi étudiée. Ci- 
tons par exemple, les méthodes dites probabilistic logic sampling [Hen88], les 
méthodes MCMC ( Markov Chain Monte Carlo). Plus précisément, les MCMC 

4 La fonction T utilisée ici est une fonction indicatrice de : 9û,x(X) = 1 si Xi = x et 0 
sinon. Ainsi, P(Xt = Xi) = EU-Ei.xJ 
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sont une famille de méthodes stochastiques comprenant entre autres Me- 
tropolis ([MRR + 53] ou [GRS96]) et l'échantillonneur de Gibbs [Nea93]. 


► Connaissance parfaite de la loi à simuler 


La manière la plus simple consiste à considérer une connaissance totale 
de toutes les lois conditionnelles de notre réseau bayésien. On peut alors 
« tirer » les valeurs des différentes variables en prenant l'ordre logique des 
racines vers les feuilles du graphe. Ce sont les méthodes dites de Monte- 
Carlo ou probabilistic logic sampling [Hen88]. La figure 5.6 présente le type 
de calcul que ces méthodes impliquent, ainsi que leur séquencement. 



Variable tirée 

Loi de tirage 

Tirage 

B 

R(B) 


b 

D 

P(D | B = 

b) 

d 

F 

P(F I D = 

d) 

f 

A 

R(A) 


a 

C 

V[C | A = 

a, B = b) 

c 

E 

P(E | C = 

c) 

e 

G 

V{ G ! E = 

e, F = f) 

g 


(a) Réseau bayésien utilisé. 


(b) Ordre de tirage pour l'échantillon (a,b,c,d,e,f,g). 


FlG. 5.6 Monte-Carlo : un exemple de génération d'un cas 


► Connaissance imparfaite de la loi à simuler 

Lorsque la loi est mal connue ou pour des raisons de rapidité de conver- 
gence et de calculs des échantillons, il est parfois impossible d'effectuer 
des tirages selon la loi étudiée. C'est pour ces raisons qu'on utilise des 
méthodes dites MCMC (Markov Chain Monte Carlo). Ce sont d'autres mé- 
thodes principalement issues de la physique statistique, considérant la base 
d'échantillons comme une chaîne de Markov. 

Une chaîne de Markov est une série « temporelle » de variables aléa- 
toires (X ft \ t € N) telle que la loi de X (t ' ne dépend que de X (t ^. 
Mathématiquement : 


P(X (t) =xi | X (t - 1): te Xj ,...,X (0) =xic) =V{X W = Xi | X (t_l) =Xj) =Vi) 
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Sous certaines conditions, on prouve qu'il existe une loi limite n - ne 
dépendant que des pq qu'on appelle la matrice de transition ou le noyau 
de la chaîne de Markov - vers laquelle les séries (X l U , t G N) tendent, quels 
que soient les X (û l On a alors le même résultat que précédemment : 

, N+m 

i=m 

où m représente le nombre d'étapes nécessaires afin que la chaîne de 
Markov atteigne une « quasi-stationnarité » autour de la loi n ( burn in). 
Cette valeur est choisie expérimentalement. 


Soit Xi , . . . , X n , n variables à simuler. 

Alors, chaque itération (t) de l'algorithme comportera deux phases : 

(D Choix : pour i choisi à chaque itération, on calcule le nouvel 
X (t) 

en fonction de l'ancien X^ 1 * - 1 auquel on ne changera qu'au 
plus la valeur du i eme composant par une nouvelle valeur-candidat 
X? tirée suivant une loi dépendant de la valeur de X à t — 1. 


@ Acceptation-Rejet : cette valeur candidat peut être acceptée 

(Xh' = X*) ou rejetée (X^ = X^ -1 ') suivant une seconde loi 

de probabilité dépendant de X^ -1 ) et de X* : A(X( t_, hX?). 


V 


J 


FlG. 5.7 Algorithme d' Acceptation-Rejet généralisé 


Pour simuler la base de données représentant un réseau bayésien, il 
suffit alors d'utiliser une chaîne de Markov dont le noyau est calculé de 
telle façon que la loi-limite soit la loi du réseau bayésien étudié. 

Pratiquement, un algorithme utilisant une telle méthode est appelé un 
algorithme d'« Acceptation-Rejet généralisé » et peut se décrire sommaire- 
ment comme présenté dans le tableau 5.7 . 

Les problèmes sont évidemment nombreux : comment construire la chaîne 
de Markov, comment choisir le burn in ? Comment choisir le m (quand 
peut-on considérer que la chaîne de Markov a assez convergé) ? 

Le nom des méthodes (Metropolis, échantillonneur de Gibbs, . . . ) varie 
en fonction de la façon dont est obtenue cette chaîne de Markov. 

Il est particulièrement intéressant de noter que l'implémentation de l'é- 
chantillonneur de Gibbs [GG84] est particulièrement aisée dans le cadre 
des réseaux bayésiens. En effet, il devient extrêmement simple et se réduit 
au choix, à chaque itération, d'une variable dont on change la valeur en 
fonction des valeurs de son entourage ([Pea87b], [Yor92]). 


QU) 
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Cet algorithme présenté dans la figure 5.8 définit bien une chaîne de 
Markov. Cependant, si les lois ne sont pas entièrement positives (c'est-à- 
dire, s'il existe des 0 dans les tables de probabilités), la convergence n'est 
plus assurée. 


Csoit un réseau bayésien de n variables ( Xj X n ) , dont certaines sont' 

observées. On suit alors l'algorithme : 

(D Initialisation : pour toute variable, on choisit aléatoirement 
une valeur, compatible avec les observations . 

(D Itération (t) : à chaque itération (t) de l'algorithme, on veut 

calculer l'échantillon en fonction de l'échantillon précédent 

x u-i 

. Pour cela, on choisit une variable parmi les variables 
non observées - par exemple chacune à tour de rôle - et on 
modifie sa valeur en fonction de sa loi conditionnellement à 
ses parents dans le graphe. 

\ J 


FiG. 5.8 Échantillonneur de Gibbs dans un réseau bayésien 


GD 

www.frenchpdf.com 


www.frenchpdf.com 


Chapitre 6 


Apprentissage dans les réseaux 
bayésiens 


Les chapitres précédents nous ont montré qu'un réseau bayésien est 
constitué à la fois d'un graphe (aspect qualitatif) et d'un ensemble de pro- 
babilités conditionnelles (aspect quantitatif). L'apprentissage d'un réseau 
bayésien doit donc répondre aux deux questions suivantes : 

• Comment estimer les lois de probabilités conditionnelles ? 

• Comment trouver la structure du réseau bayésien ? 

Nous allons donc séparer le problème de l 'apprentissage en deux parties : 

• L'apprentissage des paramètres, où nous supposerons que la structure 
du réseau a été fixée, et où il faudra estimer les probabilités condi- 
tionnelles de chaque nœud du réseau. 

• L 'apprentissage de la structure, où le but est de trouver le meilleur graphe 
représentant la tâche à résoudre. 

Comme pour tout problème de modélisation, différentes techniques sont 
possibles selon la disponibilité de données concernant le problème à traiter, 
ou d'experts de ce domaine. Ces techniques peuvent se partager en deux 
grandes familles : 

• apprentissage à partir de données, complètes ou non, par des ap- 
proches statistiques ou bayésiennes ; 

• acquisition de connaissances avec un expert du domaine. 


www.frenchpdf.com 


6.1. Apprentissage des paramètres 


La suite de ce chapitre va donc étudier successivement ces différentes 
méthodes, tout d'abord pour l'apprentissage des paramètres d'un réseau 
de structure fixée, puis pour l'apprentissage de la structure elle-même. 


6.1 Apprentissage des paramètres 

6.1.1 À partir de données complètes 

Nous cherchons ici à estimer les distributions de probabilités (ou les pa- 
ramètres des lois correspondantes) à partir de données disponibles. 
L'estimation de distributions de probabilités, paramétriques ou non, est un 
sujet très vaste et complexe. Nous décrirons ici les méthodes les plus utili- 
sées dans le cadre des réseaux bayésiens, selon que les données à notre dis- 
position sont complètes ou non, en conseillant la lecture de [Hec98], [Kra98] 
et [Jor98] pour plus d'informations. 


► Apprentissage statistique 

Dans le cas où toutes les variables sont observées, la méthode la plus 
simple et la plus utilisée est l 'estimation statistique qui consiste à estimer la 
probabilité d'un événement par la fréquence d'apparition de l'événement 
dans la base de données. Cette approche, appelée maximum de vraisemblance 
( MV ), nous donne alors : 


A A MV Ni i V 

P (Xi = X k I pa(Xi) = Xj) = e Uk = ’ ’ (6.1) 

2_k IN D,k 

où N| j k est le nombre d'événements dans la base de données pour lesquels 
la variable Xi est dans l'état Xk et ses parents sont dans la configuration xj. 

Démonstration 

Soit x n ‘ = {x^L.x^J) un exemple de notre base de données. La vraisem- 
blance de cet exemple conditionnellement aux paramètres 0 du réseau est : 

p(x = x ^\e) = p(Xt = x™, ...,x n = x™ 1 0 ) 

Tl 

= P(Xi = xjP | pa(Xi) = xj l \ 0) 

i=l 

n 

= n 0 ij(l),lc(l) 

i=l 
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La vraisemblance de l'ensemble des données V est : 

N TL N 

nv 1 0 ) = n p[x = æ (i) 1 0 ) = n n 

1=1 i=l 1=1 

L'examen détaillé du produit üt ®ij(i),k(i) nous montre que le terme 
9i,j,k (pour i, j, k fixés) apparaît autant de fois que l'on trouve la configura- 
tion Xj = x^ et pa(X|) = Xj dans les données, soit N^k- La vraisemblance 
des données peut donc se réécrire : 

n N n. T( 

uni 0) =nn 0 *.id)«i] = n n n e 5t k m 

1=1 1=1 i=1 j=1 k=1 

La log-vraisemblance s'écrit alors : 

n qt r t 

LL{V | 0) = log L(Z) | 0) = LLL Nij.k log0ij,k (6.3) 

i=1 j=1 k=1 

Nous savons aussi que les 0tj,k sont liés par la formule suivante : 

n n-i 

Y 0i,j,k = 1 soit 0 Urt = ]- y 0 iJ k 

k=1 k=1 


Réécrivons la log-vraisemblance à partir des 0i,j,k indépendants : 


LL(£> 



y Ni,j,k log0i,j,k + Nij >Tt log 1 - ^ 0i,j,i< 


k=1 


Et sa dérivée par rapport à un paramètre 0y,k est : 

9LL(P | 0) _ Njj.k N iii[rt _ Ntj.k 

39i,j,k 0i,i,k (^1 — Hk^ 1 0i,j,k^) 0bî,k 0i,i,n 


La valeur 0y k du paramètre 0i,j,k maximisant la vraisemblance doit 
annuler cette dérivée et vérifie donc : 


soit 


Nij.k _ Nij )Ti 

A A 

0i,j,k 0i,j,n 


Vk€{l,...,T i -1} 


Ny.l _ N y>2 

A A 

0i,j,1 0i,j ,2 


^i.j.n-1 Ni,j,n 

A A 

0Li, r t— 1 0i,j ,n 


L 

L 


n 

k=1 


n 

k=1 


N ùi,k 

A 

0i,j,k 


Ü N, Jlk 


k=1 
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d'où 


OiJ.k = 


Ny.k 


L £=1 N U 


Vk G {1 , Tt} 


□ 


► Apprentissage bayésien 

Le principe de l 'estimation bayésienne est quelque peu différent. Elle con- 
siste à trouver les paramètres 0 les plus probables sachant que les données ont 
été observées, en utilisant des a priori sur les paramètres. La règle de Bayes 
nous dit que : 


P(0|ï>) oc P(X> | 0)P(0) =L(2? | 0)P(0) 

Lorsque la distribution de l'échantillon suit une loi multinomiale (voir 
équation 6.2 page précédente), la distribution a priori conjuguée est la dis- 
tribution de Dirichlet : 


tl qt n 

^«nnn^r-- 1 

i=i j=i k=i 

où octj _| c sont les coefficients de la distribution de Dirichlet associée à la loi 
a priori P(Xt = x k | pa(X|) = Xj). Un des avantages des distributions expo- 
nentielles comme la distribution de Dirichlet est qu'il est possible d'expri- 
mer facilement la loi a posteriori des paramètres P(0 | V) [Rob94] : 

tl qi n 

p(0 1 v) oc nnn i0 ùk) Ni ' ik+aii ^ 1 

i=i j=i k=i 

En posant N( - k = — 1, on retrouve le même genre de 

formule que dans l'équation 6.2 page précédente. Un raisonnement iden- 
tique permet de trouver les valeurs des paramètres Oyy qui vont maximi- 
ser P(0 | V). 

L'approche de maximum a posteriori (MAP) nous donne alors : 


P (Xi = x k | pa(Xt) = Xj) 


a MAP 

0i,î,k 


h^ij.k + a ijk 1 
v (hhj,k 0” Cù.j.k 1 ) 


(6.4) 


où oq.gk sont les paramètres de la distribution de Dirichlet associée à la 
loi fl priori P(X| = x k | pa(Xi) = Xj). 
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Une autre approche bayésienne consiste à calculer l'espérance a pos- 
teriori des paramètres 0ij,k au lieu d'en chercher le maximum. Cette ap- 
proche d'espérance a posteriori (EAP) nous donne alors (voir [Rob94]) : 


, EAP 


P (Xi = x k | pa(Xi) = Xj) = e i)j)lt = 


i J ,1c + a i,j,k 
21k “b a i,j,k) 


(6.5) 


Les estimations que nous venons d'évoquer (maximum de vraisem- 
blance, maximum a posteriori et espérance a posteriori) ne sont valables que 
si les variables sont entièrement observées. Les méthodes suivantes vont 
donc essayer de traiter le cas où certaines données sont manquantes. 


6.1.2 À partir de données incomplètes 

Dans les applications pratiques, les bases de données sont très souvent 
incomplètes. Certaines variables ne sont observées que partiellement ou 
même jamais, que ce soit à cause d'une panne de capteurs, d'une variable 
mesurable seulement dans un contexte bien précis, d'une personne sondée 
ayant oublié de répondre à une question, etc. 

Nous allons voir qu'il existe différents types de données incomplètes, 
puis aborder les deux cas traitables automatiquement, pour ensuite nous 
concentrer sur un des algorithmes les plus utilisés pour l'apprentissage des 
paramètres, l'algorithme EM. 


► Nature des données manquantes 

Notons V = {X(}i^t^ n i^v^N notre ensemble de données, avec V a la 
partie observée mais incomplète de V, et V m la partie manquante. Notons 
aussi M = {Mu} avec Mu = 1 si X[ est manquant, et 0 sinon. 

Le traitement des données manquantes dépend de leur nature. [Rub76] 
en distingue plusieurs : 

• MCAR ( Missing Completly At Random) : P [M. \ V) = P [M), la proba- 
bilité qu'une donnée soit manquante ne dépend pas de V. 

• MAR ( Missing At Random) : P {M \ V) = P [M \ V 0 ), la probabilité 
qu'une donnée soit manquante dépend des données observées. 

• NMAR ( Not Missing At Random) : la probabilité qu'une donnée soit 
manquante dépend à la fois des données observées et manquantes. 

Les situations MCAR et MAR sont les plus faciles à résoudre car les 
données observées contiennent toutes les informations nécessaires pour es- 
timer la distribution des données manquantes. La situation NMAR est plus 
délicate car il faut alors faire appel à des informations extérieures pour 
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réussir à modéliser la distribution des données manquantes et revenir à 
une situation MCAR ou MAR. 

► Traitement des données MCAR 

Lorsque les données manquantes sont de type MCAR, la première ap- 
proche possible et la plus simple est l'analyse des exemples complets. Cette 
approche consiste à estimer les paramètres à partir de V co ensemble des 
exemples complètement observés dans V Q . Lorsque V est MCAR, l'estima- 
teur basé sur V co n'est pas biaisé. Malheureusement, lorsque le nombre de 
variables est élevé, la probabilité qu'un exemple soit complètement mesuré 
devient faible et V co peut être vide ou insuffisant pour que la qualité de 
l'estimation soit bonne. 

Une autre approche, l'analyse des exemples disponibles, est particulière- 
ment intéressante dans le cas des réseaux bayésiens. En effet, puisque la loi 
jointe est décomposée en un produit de probabilités conditionnelles, nous 
n'avons pas besoin de mesurer toutes les variables pour estimer la loi de 
probabilité conditionnelle P(Xt | Pa(Xt)), mais seulement des variables X| 
et Pa(Xt). Il suffit donc d'utiliser tous les exemples où Xt et Pa(Xt) sont 
complètement mesurés pour l'estimation de P(Xt | Pa(Xt)) 

► Traitement des données MAR 

De nombreuses méthodes tentent d'estimer les paramètres d'un mo- 
dèle à partir de données MAR. Citons par exemple le sequential updating 
[SL90], l'échantillonnage de Gibbs [GG84], et l'algorithme expectation maximi- 
sation (EM) [DLR77, Lau95]. 

Plus récemment, les algorithmes bound and collapse [RS98] et robust baye- 
sian estimator [RSOO] cherchent à résoudre le problème quel que soit le type 
de données manquantes. 

L'application de l'algorithme itératif EM aux réseaux bayésiens a été 
proposée dans [CDLS99] et [NH98] puis adaptée aux grandes bases de 
données dans [TMH01]. Nous allons présenter les grandes lignes de cet al- 
gorithme dans le cas de l'apprentissage statistique puis de l'apprentissage 
bayésien. 

► Apprentissage statistique et algorithme EM 

Soit log P(T> | 0) = log ?(V 0 ,V m | 0) la log-vraisemblance des données. 
V , n étant une variable aléatoire non mesurée, cette log-vraisemblance est 
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elle aussi une variable aléatoire fonction de V m . En se fixant un modèle de 
référence 0*, il est possible d'estimer la densité de probabilité des données 
manquantes P(P m j 0*) et ainsi de calculer Q(0 : 0*) espérance de la log- 
vraisemblance précédente : 

Q(0 : 0*) = E 0 * [log V(V 0 ,V m | 0)] (6.6) 


Q (0 : 0*) est donc l'espérance de la vraisemblance d'un jeu de pa- 
ramètres 0 quelconque calculée en utilisant une distribution des données 
manquantes P (£> m | 0*). 

Cette équation peut se ré-écrire de la façon suivante (voir équation 6.3 
page 119) : 

TL n qic 

Q(0 : 0*) = L Z Z N W°S (6-7) 

i=l k=i j=i 


où N? jk = Ee* [Ny^iJ = N * P(Xt = x^, Pa(Xt) = pcq I 9*) est obtenu par 
inférence dans le réseau de paramètres 0* si les { X|, Pa(Xi) } ne sont pas 
complètement mesurés, et par simple comptage sinon. 

L 'algorithme EM est très simple : soient 0^ = { 0 ■ ^ k } les paramètres du 
réseau bayésien à l'itération t. 






expectation : estimer les N* de l'équation 6.7 à partir des paramètres 
de référence 0 ^ , 

maximisation : choisir la meilleure valeur des paramètres 0 l L 1 1 en 
maximisant Q, 


0 


(t+l) 


L 


N?. , 

1,1,1c 

N* 

k IN i,j,k 


( 6 . 8 ) 


• répéter ces deux étapes tant que l'on arrive à augmenter la valeur de 

Q. 


[DLR77] a prouvé la convergence de cet algorithme, ainsi que le fait 
qu'il n'était pas nécessaire de trouver l'optimum global 0 ^ t+1 * de la fonc- 
tion Q(0 : 0™) mais uniquement une valeur qui permette à la fonction Q 
d'augmenter ( Generalized EM). 

De nombreuses heuristiques permettent d'accélérer ou d'améliorer la 
convergence de l'algorithme EM [NH98]. Citons par exemple, l'ajout d'un 
moment y, proposé par Nowlan [Now91] qui permet d'accélérer la conver- 
gence si le paramètre y est bien réglé : 


0 


(t+l) 




0 


(t+l) 


(t) 


i,j,k 




(6.9) 
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Exemple simple : 

Prenons le réseau bayésien et la base d’exemples définis ci-après (où 
une donnée manquante) : 



Pluie = « il pleut à Rouen » ; 

Seine = « la Seine déborde » ; 
Para = « j’ai sorti mon parapluie ». 


Pluie 

Seine 

0 

? 

n 

? 

O 

n 

n 

n 

O 

O 


? 


représente 


Commençons par définir quels sont les paramètres à estimer : 

- P (Pluie) = [0p 1 — 0 P ] 

- p(P(Seine | Pluie = o) = [0 S ]p= o 1 - 0s|p=ol 

- PfSeine j Pluie = n) = [0s|p=n 1 — 0s|p= n ] 

- idem pour P(Para [ Pluie)... 


Concentrons-nous sur l’estimation des paramètres 0 S |p= o et 0 S |p= n avec l’algorithme 
EM. 


Initialisation 

Les valeurs initiales des paramètres sont : Q [ s °l =0 = 0.3, 0s°p =n = 0.4 

Première itération 

Le calcul de l’étape E est résumé dans le tableau ci-après (les valeurs suivies d’un + 
sont obtenues par calcul des probabilités selon le modèle 0 (O) ) : 


Pluie 

Seine 

P(S I 

S = o 

P = o) 

S = n 

P(S|1 
S = o 

3 =n) 

S=n 

0 

? 

0.3 + 

0.7 + 

0 

0 

n 

? 

0 

0 

0.4 + 

0.6 + 

O 

n 

0 

1 

0 

0 

n 

n 

0 

0 

0 

1 

O 

O 

1 

0 

0 

0 


N* 

1.3 

1.7 

0.4 

1.6 


L’étape M nous donne 0j'p_ o = 1 7 = 0.433 et 0s]p =n = 0 ° + \ e = 0.2 


Deuxième itération 

Étape E (les valeurs suivies d’un + sont obtenues par calcul des probabilités selon le 
modèle 0 (1 1 obtenu à l’itération précédente) : 


Tab. 6.1 Exécution de l’algorithme EM (à suivre . . . ) 
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Pluie 

Seine 

P(S | 

S = o 

P = o) 

S = n 

P(S | 

S = o 

P = n) 

S = n 

0 

? 

0.433 + 

0.567 + 

0 

0 

n 

? 

0 

0 

0.2 + 

0.8 + 

0 

n 

0 

1 

0 

0 

n 

n 

0 

0 

0 

1 

0 

0 

1 

0 

0 

0 


N* 

1.433 

1.567 

0.2 

1.8 


Etape M : 0j 


1 .433 

1 .433+1 .567 


= 0.478 ete' 


0 . 2+1 .8 


= 0.1 


Convergence 

Après quelques itérations de l'algorithme EM, les valeurs de paramètres convergent vers 

®s]p=o = 0-5 et 0 S | P=n = 0 


Dans cet exemple très simple, les données manquantes sont MCAR et les approches 
analyse des exemples complets ou analyse des exemples disponibles (voir page 122) 
auraient fourni directement la solution. 


Tab. 6.1 Exécution de l’algorithme EM 


► Apprentissage bayésien et algorithme EM 


L'algorithme EM peut aussi s'appliquer dans le cadre bayésien. Pour 
l'apprentissage des paramètres, il suffit de remplacer le maximum de vrai- 
semblance de l'étape M par un maximum (ou une espérance) a posteriori. 
Nous obtenons dans le cas de l'espérance a posteriori : 


0 


,(t+D 

i,j,k 


Nj,j,k + 

Ik( N i,j,k + +a fi,h) 


( 6 . 10 ) 


Exemple simple : Reprenons l’exemple précédent. Il nous faut ajouter un a priori sur les 
paramètres, par exemple une distribution de Dirichlet uniforme avec <Xi,j,k = 1. L’algo- 
rithme EM utilisant un maximum de vraisemblance nous donne : 


■ 0 


(i) 

S|P = o 


3 ( 2) 
3 S|P = o 


1 .3+1 
1 .3+1 .7+2 
1 .46+1 
1 .46+1 .54 + 2 


= 0.46 et 0 


m 


0.4+1 


S|P = n 0.4+1. 6+2 

= 0 492 et 0 1 1 1 = °- 35+1 

— C.+ 7Z. Cl o S | p = n — 0.35+1.65 + 2 


= 0.35 

= 0.338 


yt) 
7 S|P = o 


= 0.5 et 0 


(t) 

S|P = n 


= 0.333 


L’ajout d’un a priori uniforme sur les paramètres a empêché la valeur 0^(, =n de tendre 
vers 0 alors que la configuration {S = o et P = n} n’est pas présente dans les données. 


Tab. 6.2 Exécution de l’algorithme EM avec a priori 6e Dirichlet 
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6.1.3 Incorporation de connaissances 

Dans de nombreuses applications réelles, il n'existe pas (ou très peu) 
de données. Dans ces situations, l'apprentissage des paramètres du réseau 
bayésien passe par l'utilisation de connaissances d'experts pour tenter d'es- 
timer les probabilités conditionnelles. Cette difficulté, souvent appelée éli- 
citation de probabilités dans la littérature, est générale dans le domaine de 
l'acquisition de connaissances. 

Nous décrirons tout d'abord l'utilisation d'une échelle de probabilités per- 
mettant à l'expert d'estimer de manière quantitative ou qualitative la pro- 
babilité d'un événement quelconque. 

Malheurement, chaque paramètre d'un réseau bayésien est une loi de 
probabilité conditionnelle dont la taille augmente exponentiellement par 
rapport au nombre de parents de la variable considérée. Il n'est donc pas 
réaliste d'interroger un expert sur toutes les valeurs de chacune de ces 
lois. Nous détaillerons quelques méthodes permettant de simplifier une loi 
de probabilité conditionnelle, ramenant ainsi à un nombre raisonnable le 
nombre de questions à poser à l'expert. Nous proposerons aussi quelques 
règles permettant de vérifier la cohérence des estimations de l'expert. 

Pour finir, nous aborderons le problème de l'estimation de la probabilité 
d'un événement en présence de plusieurs experts ou de sources d'informa- 
tion multiples. Comment prendre en compte la fiabilité de ces experts et de 
ces sources ? Et que faire lorsqu'ils sont en désaccord ? 


► Comment demander à un expert d'estimer une probabilité ? 

De nombreux travaux comme ceux de [RenOla] abordent le sujet de 
l'élicitation de probabilités. La tâche la plus difficile est souvent de trouver 
un expert disponible et familiarisé à la notion de probabilité. Ensuite il faut 
tenir compte des biais éventuels parfois subconscients (un expert va sou- 
vent surestimer la probabilité de réussite d'un projet le concernant, etc.). 
La dernière étape consiste à fournir à l'expert des outils associant des no- 
tions qualitatives et quantitatives pour qu'il puisse associer une probabilité 
aux différents événements. L'outil le plus connu et le plus facile à mettre en 
œuvre est l'échelle de probabilité [DVHJOO] présentée figure 6.1 ci-après. 
Cette échelle permet aux experts d'utiliser des informations à la fois tex- 
tuelles et numériques pour assigner un degré de réalisation à telle ou telle 
affirmation, puis éventuellement de comparer les probabilités des événe- 
ments pour les modifier. [vRW + 02] propose une étude détaillée des tech- 
niques d'élicitation de probabilités pour résoudre un problème de diagnos- 
tic médical. 
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certain 


probable 

attendu 


moitié-moitié 


100 

85 

75 


50 


incertain 

improbable 

impossible 


25 

15 

0 


Fig. 6.1 Échelle de probabilité 


► Quelles probabilités estimer ? 

Nous supposons ici que l'expert doive estimer la probabilité condition- 
nelle P(Y | Xi , X 2) ..., X n ) et que toutes nos variables (Y et Xt) soient binaires 
(de valeurs respectives {y et y} et {xt et xt}). 

L'expert devra donc estimer 2 n valeurs, ce qui est peu réaliste pour des 
problèmes complexes (manque de temps, fiabilité des 2 n valeurs, etc.). Plu- 
sieurs approches permettent de simplifier cette probabilité conditionnelle 
par diverses formes d'approximation comme le modèle OU bruité, les fac- 
teurs d'interpolation ou le modèle log-linéaire. 

Modèle OU bruité 

Le modèle OU bruité, proposé initialement par Pearl [Pea86], fait les 
hypothèses suivantes : 

• La probabilité suivante (probabilité que Xi cause Y lorsque les autres 
variables Xj sont absentes) est facile à estimer : 

Pi = P(y I x 1) x 2) ...,x i) ...,x n ) (6.11) 

• Le fait que Xt cause Y est indépendant des autres variables Xj (pas 
d'effet mutuel des variables). 

Ces hypothèses permettent alors d'affirmer que : 
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• Si un des X L est vrai, alors Y est presque toujours vrai (avec la proba- 
bilité pO, 

• Si plusieurs Xt sont vrais, alors la probabilité que Y soit vrai est : 

P(yl*) = i- n n-Pi) ( 6 . 12 ) 

ilXtCAp 

où X v est l'ensemble des Xt vrais. 

Ce modèle a été étendu au cas où Y peut être vrai sans qu'une seule des 
causes soit vraie (leaky noisy-OR gâté) [Hen89] et aux variables multivaluées 
(generalized noisy-OR gâte) [Hen89, Die93, Sri93]. Il s'intégre très facilement 
aux algorithmes d'inférence tels que les algorithmes de message passing ou 
d'arbre de jonction. 

Il est important de noter que cette modélisation simplifiée des proba- 
bilités conditionnelles peut aussi être utilisée dans le cadre de l'apprentis- 
sage, lorsque le nombre de données est faible. Cette approche a donné de 
bons résultats dans des domaines tels que le diagnostic médical [PPMH94, 
ODWOl] ou le diagnostic de pannes [BRM02], 

Facteurs d'interpolation 

L'utili s ation de facteurs d'interpolation a été proposée par [Cai04] pour 
la détermination pratique de tables de probabilités conditionnelles. À la 
différence du modèle précédent, l'expert est consulté pour déterminer les 
probabilités des événements suivants : 


Pi = P(p 


,x 2) . 


■•) x n) 

(6.13) 

p = P(y 1 

Xj, 

x 2) .. 

• ,Xi, •• 

•> x n) 

(6.14) 

p = P(y 

*1, 

x 2 ,.. 

.,Xi, .. 

•) x n) 

(6.15) 


Ces valeurs permettent de calculer les facteurs d'interpolation IFi de la 
façon suivante : 


IFt = 


Pi "P 
P -P 


(6.16) 


Ce facteur peut être interprété comme l'effet relatif (par rapport à pi, situa- 
tion où tous les X| sont absents) du passage de X| de x.j à Xi (lorsque tous 
les autres Xj sont à Xj). 


Dans le cas le plus simple proposé par Cain, parents non modifiants, l'ef- 
fet de chaque Xt sur Y ne dépend pas de la valeur des autres Xj. Avec cette 
hypothèse, le facteur d'interpolation est donc de manière plus générale l'ef- 
fet de la variation de X| quelles que soient les valeurs prises par les autres 
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Xj, ce qui nous permet de calculer par récurrence la valeur de n'importe 
quelle probabilité P (y | X), par exemple : 

P(h I xi,X2,...,Xi ) ...Xj ) ...,x n ) = P + IPifPi -V) (6.17) 

et ainsi de suite pour les probabilités où k Xi sont absents (xt) en faisant 
intervenir les probabilités où (k — 1 ) X| sont absents et le facteur d'interpo- 
lation de l'autre variable. 

Cain adapte ensuite cette utilisation de facteurs d'interpolation à des 
variables discrètes quelconques. L'approche se généralise aussi au cas où 
certains parents sont modifiants en estimant des facteurs d'interpolation 
spécifiques à chaque configuration de ces parents modifiants. 


Modèles log-linéaires 

Les modèles log-linéaire [Chr97] peuvent aussi être utilisés pour simpli- 
fier le nombre de paramètres d'une loi de probabilité conditionnelle, ou 
plus généralement la loi de probabilité jointe d'une variable et de ces pa- 
rents P(Y, Xt , X 2 , ..., X n ). 

Le principe, très général, de ces modèles est de décomposer le loga- 
rithme d'une loi de probabilité en une somme de terme décrivant les inter- 
actions entre les variables. Cette décomposition est dite saturée lorsque tous 
les termes sont présents dans la décomposition, et non saturée lorsque des 
hypothèses supplémentaires sont rajoutées, comme par exemple le fait que 
certaines variables soient indépendantes, pour supprimer des termes dans 
la décomposition. 

Dans le cas qui nous intéresse, nous savons aussi que les parents sont 
mutuellements indépendants. De plus, [Cor03] propose de ne garder que 
les termes d'interaction d'ordre inférieur ou égal à 2 (u Ui, u{), arrivant au 
modèle log-linéaire non saturé suivant : 

logP(Y,X 1 ,...,X n ) =u +y UitxQ + y u((xt,y) (6.18) 

I I 


La détermination de ces termes d'interaction passe par la résolution 
d'un système linéaire, en utilisant certaines contraintes comme le fait que la 
somme des P( Y, Xi , ..., X n ) doit être égale à 1. En supposant que l'expert soit 
interrogé sur toutes les probabilités marginales P(xO, P(y ), et sur toutes les 
probabilités conditionnelles P(y | xt) et P(y | xf), [Cor03] montre qu'il reste 
encore 2 n — 2u contraintes à satisfaire pour déterminer complètement les 
paramètres du modèle log-linéaire. 

Cette approche permet donc d'obtenir une modélisation plus générale 
que les deux premières, mais nécessite davantage d'estimations de la part 
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de l'expert lorsque le nombre de parents d'une variable est important. 


Cohérence des estimations 

Les méthodes que nous venons d'étudier permettent de simplifier une 
distribution de probabilité conditionnelle en estimant un nombre réduit de 
probabilités d'événements, à l'aide par exemple d'une échelle de probabi- 
lité. 

[Cor03] propose une série de règles permettant de vérifier la cohérence 
des estimations de l'expert, et éventuellement de corriger automatique- 
ment certaines des probabilités estimées. Cette approche décrite ci-après 
dans le cadre de l'utilisation de modèles log-linéaires se généralise assez 
facilement aux autres approches : 

® Estimation par l'expert des probabilités marginales P(x-l) et P (y). Ces 
probabilités correspondent à des événements non conditionnés qui 
sont en général faciles à estimer. Ces valeurs ne sont pas suffisantes, 
mais permettront par la suite de vérifier la cohérence des estimations 
de l'expert. 

® Estimation des probabilités conditionnelles P (y | x-t) et P (y | xt) pour 
toutes les variables X^. 

© Utilisation des redondances pour vérifier la cohérence des estima- 
tions. En effet, nous savons que, pour chaque variable Xt : 

P (y) = P(y I xt)P(xt) + P(y | xO(l - P(xO) (6.19) 

Puisque chacune de ces valeurs a été estimée par l'expert, nous pou- 
vons donc comparer le P (y) estimé et celui obtenu par l'équation 6.19 
pour détecter des incohérences éventuelles. 

© Correction des incohérences. Cette correction peut être soit manuelle, 
en redemandant à l'expert de réestimer les P (y | Xt) et P (y | Xt) incri- 
minés, soit automatique, en les modifiant tout en gardant leurs pro- 
portions respectives pour que l'équation 6.19 soit vérifiée. 


► Comment fusionner les avis de plusieurs experts ? 

En ingénierie de la connaissance, l'ingénieur doit souvent faire face à 
des sources d'informations de diverses natures : experts, données collec- 
tées selon des moyens variés, etc. La prise en compte de ces différentes 
expertises doit se faire avec précaution. Afin d'éviter d'utiliser des données 
biaisées, Druzdzel et al. [DDOO] proposent un critère pour vérifier si les di- 
verses sources d'informations ont été utilisées dans les mêmes conditions. 
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Supposons maintenant que plusieurs experts proposent une estimation 
des mêmes valeurs. Comment faut-il combiner ces différents résultats, en 
sachant que les experts ne sont pas forcément tous fiables (ou le sont uni- 
quement sur une partie du problème)? La prise en compte de données 
incertaines a été abordée avec différentes méthodes dont la logique floue 
[BM03], les réseaux de neurones (avec par exemple les mélanges d'experts 
proposés par [JJNH91]), ou la théorie des fonctions de croyances [SmeOO]. 
Pour ce dernier cas, S. Populaire et al. [PDG + 02] proposent une méthode 
qui permet de combiner l'estimation des probabilités faite par un expert 
avec celle obtenue grâce à des données. 


6.2 Apprentissage de la structure 

6.2.1 Introduction 

Dans la première partie de ce chapitre, nous avons examiné différentes 
méthodes d'apprentissage des paramètres d'un réseau bayésien à partir de 
données complètes ou incomplètes, ou à l'aide d'un expert, en supposant 
que la structure de ce réseau était déjà connue. Se pose maintenant le pro- 
blème de l'apprentissage de cette structure : comment trouver la structure 
qui représentera le mieux notre problème. 

Avant d'évoquer les deux grandes familles d'approches (recherche d'in- 
dépendances conditionnelles et méthodes basées sur un score), nous com- 
mencerons par rappeller le cadre dans lequel nous travaillons. Ainsi l'ap- 
prentissage de la structure d'un réseau bayésien à partir de données revient 
à trouver un graphe qui soit une P-map d'un modèle d'indépendance asso- 
cié à une distribution de probabilité dont nous possédons un échantillon. 
Il faut donc être certain de l'existence d'une telle P-map (fidélité) et de bien 
connaître toutes les variables (suffisance causale). 

Nous évoquerons ensuite une notion générale, l'équivalence de Mar- 
kov, qui nous sera utile dans les deux types d'approche, notion liée au 
fait que plusieurs graphes avec le même squelette pourront représenter les 
mêmes indépendances conditionnelles. 

Comme précédemment, nous pourrons aussi distinguer trois cas : 

• les données sont complètes et représentent totalement le problème ; 

• les données sont incomplètes et/ ou il existe des variables latentes ; 

• peu de données sont disponibles, et il faut utiliser une connaissance 
experte. 

Une première approche, proposée initialement par Spirtes et al. d'un 
côté, et Pearl et Verma de l'autre, consiste à rechercher les différentes in- 
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dépendances conditionnelles qui existent entre les variables. Les autres ap- 
proches tentent de quantifier l'adéquation d'un réseau bayésien au pro- 
blème à résoudre, c'est-à-dire d'associer un score à chaque réseau bayé- 
sien. Puis elles recherchent la structure qui donnera le meilleur score dans 
l'espace B des graphes dirigés sans circuits. Une approche exhaustive est 
impossible en pratique en raison de la taille de l'espace de recherche. La 
formule 6.20 démontrée par [Rob77] prouve que le nombre de structures 
possibles à partir de n nœuds est superexponentiel (par exemple, N S (5) = 
29281 et NS(10) =4.2 x 10 18 ). 


NS(n) 


1 , n = 0 ou 1 

Lî v =i(- 1 ) 1+1 (i) 2l(n_1)NS ( n - i )- n > 1 


( 6 . 20 ) 


Pour résoudre ce problème, ont été proposées un certain nombre d'heu- 
ristiques de recherche dans l'espace B, qui restreignent cet espace à l'espace 
des arbres ( MWST (Maximum Weight Spanning Tree)), ordonnent les nœuds 
pour limiter la recherche des parents possibles pour chaque variable ( K2 ), 
ou effectuent une recherche gloutonne dans B (GS (Greedy Search)). 

En partant du principe que plusieurs structures encodent les mêmes 
indépendances conditionnelles (équivalence de Markov) et possèdent le 
même score, d'autres méthodes proposent de parcourir l'espace E des re- 
présentants des classes d'équivalence de Markov, espace certes superexpo- 
nentiel (mais légèrement plus petit) mais qui possède de meilleures pro- 
priétés. 

Nous nous intéresserons aussi aux méthodes qui permettent d'incorpo- 
rer des connaissances a priori sur le problème à résoudre en détaillant plus 
précisément l'apprentissage de structure dans le cadre de la classification, 
et l'apprentissage de structure lorsque des variables latentes sont définies 
explicitement. 

Pour tenter de répondre à ces différentes questions, nous examinerons 
successivement les méthodes existantes, en détaillant à chaque fois une 
des approches les plus représentatives. Nous finirons en abordant quelques 
problèmes ouverts dans l'apprentissage de structure : la découverte auto- 
matique de variables latentes et l'apprentissage de réseaux bayésiens réel- 
lement causaux. 


6.2.2 Hypothèses 

Les liens entre modèle d'indépendance et réseau bayésien sont large- 
ment décrits dans la section 4.3 page 78. Un réseau bayésien n'est pas ca- 
pable de représenter n'importe quelle distribution de probabilité (ou la liste 
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des indépendances conditionnelles associées). La première hypothèse que 
nous ferons est donc l'existence d'un réseau bayésien qui soit la P-map 
du modèle d'indépendance associé à la distribution de probabilité P sous- 
jacente à nos données. Cette hypothèse se retrouve souvent sous le terme 
de fidélité ( faithfulness ) entre le graphe et P. 

L'autre hypothèse importance, est celle de suffisance causale. Un ensemble 
de variables X est suffisant causalement pour une population donnée V si 
et seulement si dans cette population, chaque cause Y commune à plusieurs 
variables de X appartient aussi à X, ou si Y est constant pour toute la popu- 
lation. Cela signifie que l'ensemble X est suffisant pour représenter toutes 
les relations d'indépendances conditionnelles qui pourraient être extraites 
des données. 


6.2.3 Notion d'équivalence de Markov 

Définition 6.1 

Deux réseaux bayésiens B-\ et B 2 sont dit équivalents au sens de Markov (B\ = B 2) 
s'ils représentent les mêmes relations d’indépendance conditionnelle. 


Afin d'illustrer simplement cette notion, montrons que les structures 
B 1, £>2 et £>3 décrites ci-après sont équivalentes. 






Démonstration 

Montrons-le pour B-\ et B 2 '■ 


Selon B, : P(X A , X B , X c ) Bl = P(X A | X B ) * P(X B | X c ) * P(X C ) 
Selon B 2 : P(X A , X B , X c )b 2 = P(X A ) * P(X B | X A ) * P(X C I X B ) 
Mais d'après la définition d'une probabilité conditionnelle, 

P(X A ,X B ) = P(X A |X B )*P(X B )*P(X A )*P(X B |X A ) 
P(X B ,X C ) = P(X c |X B )*P(X B )*P(Xc)*P(X B |Xc) 

et donc 
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= P(X a |X b )*P(Xb)*P(X c |Xb) 

= P(X A |X B )*P(X B |Xc)*P(Xc) 

= P(X a ,Xb,Xc) Bi 

Les réseaux bayésiens B-\ et Bj sont donc équivalents (id. avec B$). 

Par contre, ces trois structures ne sont pas équivalentes à la V-structure B 4 . 

En effet, nous avons P(X a ,X b ,X c )b 4 = P(X A ) * P(X C ) * P(X B |X A ,X C ) et le 

terme P(Xb | X A , Xc) ne peut pas se simplifier. □ 


Verma et Pearl [VP91] ont démontré que tous les DAG équivalents pos- 
sèdent le même squelette (graphe non dirigé) et les mêmes V-structures. 
Une classe d'équivalence, c'est-à-dire un ensemble de réseaux bayésiens qui 
sont tous équivalents, peut donc être représentée par le graphe sans circuit 
partiellement dirigé (PD AG) qui a la même structure que tous les réseaux 
équivalents, mais pour lequel les arcs réversibles (n'appartenant pas à des 
V-structures, ou dont l'inversion ne génère pas de V-structure) sont rem- 
placés par des arêtes (non orientées). Le DAG partiellement dirigé ainsi 
obtenu est dit complété (CPDAG) ou graphe essentiel [AMP95]. La table 6.4 
page 136 nous donne le graphe ASIA et son CPDAG représentant dans 
l'espace des classes d'équivalence de Markov. Ce CPDAG possède bien 
le même squelette que le DAG initial ainsi que ses deux V-structures. De 
plus, l'arc O -a X est forcément orienté dans ce sens pour ne pas créer de 
V-structure supplémentaire. 

Chickering [Chi02b] propose une méthode pour passer d'un DAG re- 
présentant un réseau bayésien à son CPDAG représentant sa classe d'équi- 
valence de Markov. Pour cela, il faut commencer par ordonner tous les 
arcs du réseau de départ (algorithme Or donner- Arc), puis parcourir l'en- 
semble des arcs ainsi ordonnés pour simplifier les arcs réversibles (algo- 
rithme DAGtoCPDAG). 


dD 
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^Algorithme DAGtoCPDAG 

• Ordonner les arcs du DAG 

• Varc, étiquette(arc) <— 0 

• A <— liste des arcs non étiquetés 

• Répéter 

(Xt, Xj ) <— miru(arc) (plus petit arc non étiqueté) 

VX k / étiquette(X k ,Xi) = Nonréversible 
Fin <— Faux 
si X k ^ pa(Xj ) alors 

étiquette(*,Xj ) <- Nonréversible 
A<r- ,A\(*,Xj) 

Fin <— Vrai 
sinon 

étiquette(X k ,Xj) <- Nonréversible 

^^^\(X k ,Xj) 

si Fin = Faux alors 

si 3arc (X k -,Xj)/X k - ^ pa(X t ) u{Xi) alors 
V(X k ,Xj) e A, 

étiquette(X k ,Xj) <— Nonréversible 

,4<-.Â\(X k ,Xj) 

sinon 

V(X k ,Xj) € A, 

étiquette(X k ,Xj) <— réversible 

-4\ (X k ,X,) 

Tant que A ± 0 
V 

^Ordonner-Arc 

• Trier les Xt dans l’ordre topologique 

• k<— 0 

• A <— liste des arcs (non ordonnés) 

• Répéter 

X.- <- minj(Xj/(Xi,Xj) £ A) 

plus petit nœud destination d’un arc non ordonné 

X.. <- max t (X t /(X t ,X..) £ A) 

plus grand nœud origine d'un arc non ordonné vers X • 

Ordre(X.-,X.-) <— k 
k <- k + 1 
-4 <— »4\ (X t ",X.-) 

Tant que A ± 0 

v y 


Tab. 6.3 Algorithme DAGtoCPDAG 


CDD 

www.frenchpdf.com 




6.2. Apprentissage de la structure 



Tab. 6.4 Exemple de réseau bayésien et son représentant dans l’espace 
des classes d’équivalence de Markov 


Il existe plusieurs algorithmes inverses capables de générer un des ré- 
seaux bayésiens équivalents à partir d'un PDAG, si ce PDAG est bien le 
représentant d'une classe d'équivalence (on dit alors que le DAG résultant 
est une extension consistante du PDAG de départ). Nous décrivons dans 
la table 6.5 ci-après l'algorithme PDAGtoDAG proposé par Dor et Tarsi 
[DT92], 

Notons qu'il est aussi possible d'utiliser les règles d'orientation d'arcs 
proposées par les algorithmes IC et PC que nous décrirons dans les pro- 
chaines sections (table 6.6 page 140) puisqu'elles résolvent également la 
même tâche. 


6.2.4 Recherche d'indépendances conditionnelles 

Cette première série d'approches d'apprentissage de structure, souvent 
appelée recherche sous contraintes, est issue des travaux de deux équipes 
concurrentes, Pearl et Verma d'une part avec les algorithmes IC et IC*, 
Spirtes, Glymour et Scheines de l'autre avec les algorithmes SGS, PC, CI, 
PCI, plus récemment l'algorithme BN-PC de Cheng et al. [CBL97a, CBL97b, 
CGK + 02], Ces algorithmes sont tous basés sur un même principe : 

• construire un graphe non dirigé contenant les relations entre les va- 
riables, à partir de tests d'indépendance conditionnelle ; 

• détecter les V-structures (en utilisant aussi des tests d'indépendance 
conditionnelle) ; 

• propager les orientations de certains arcs ; 


(HD 
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^Algorithme PDAGtoDAG 


"N 


• S<- PDAG 

• A <— liste des arêtes de PDAG 

• Répéter 

Recherche d’un nœud X t tel que 

- il n’existe aucun arc X t <— Xj dans A 

- et pour tout Xj tel qu’il existe X t -X f dans A, 

Xj est adjacent à tous les autres nœuds adjacents à X t 

Si Xi n’existe pas alors 

PDAG n’admet aucune extension complètement dirigée 
sinon 

VXj tel que X t -Xj e A 
X t — > Xj dans B 
A<- A\(Xi,X,) 


Tant Que A y 0 


V 

Notations : PDAG 
B 


V 


graphe sans circuit partiellement dirigé 
DAG complètement dirigé, extension consistante de PDAG 

y 


Tab. 6.5 Algorithme PDAGtoDAG 


• prendre éventuellement en compte les causes artificielles dues à des 
variables latentes (voir section 6.2.8 page 177). 

La caractéristique principale de toutes ces méthodes réside dans la dé- 
termination à partir de données des relations d 'indépendance conditionnelle 
entre deux variables quelconques conditionnellement à un ensemble de va- 
riables. Ceci nous amènera à évoquer les tests statistiques d'indépendance 
classiquement utilisés. Nous passerons ensuite en revue les algorithmes 
principaux issus de ces travaux et les améliorations qui y ont été appor- 
tées. 

► Tests d'indépendance conditionnelle 

Les tests statistiques classiquement utilisés pour tester l'indépendance 
conditionnelle sont les tests du x 2 et du rapport de vraisemblance G 2 . Dé- 
taillons le test d'indépendance du x 2 puis son utilisation dans le cadre de 
l'indépendance conditionnelle. 

Soient deux variables discrètes Xa et Xb, de taille respective rA et rg. 
Soit N ab le nombre d'occurrences de {Xa = x a et Xb = x^,} dans la base 
d'exemples, N a le nombre d'occurrences de {Xa = x a { et N b le nombre 
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d'occurrences de {Xb = Xbl- 

Le test du x 2 va mettre en concurrence deux modèles : 

• Le modèle observé p D = P(Xa,Xb), représenté par les occurrences 
observées O a b = N Q b- 

• Le modèle théorique pt = P(Xa)P(Xb), représenté par les occurrences 
théoriques T ab = a ^ N - b . 

Définition 6.2 (Test du x 2 ) 

Soit la statistique suivante (de degré de liberté df = (ta — 1 )(tb — 1 )) • 


ta t b 


x 2 = LL 


(O a b — T ab ) 2 


1=1 b=1 


T, 


ab 


Ta t b fxi N a .*N.b \2 

X - I ub N J 
2 _ Z_ Nq.tN b 

a=l b=1 N 


( 6 . 21 ) 


L'hypothèse d'indépendance entre X a et Xb est vérifiée pour un seuil de confiance 
a si et seulement si 

X 2< *théorique ( d f ’ 1 ~ 

Lorsqu'un effectif T a b est faible (T a b < 1 0), la formule 6.21 n'est plus 

Tabl-0.5) 2 


Tab 


applicable. Il faut alors remplacer le terme ° clb - [ - rub 1 par ■^ £ - 
(correction de Yates). 

Spirtes et al. proposent aussi d'utiliser le rapport de vraisemblance G 2 
(qui suit aussi une loi du x 2 de degré de liberté df = (ta — 1 ) (tb — 1 )) : 


ta t b 


g 2 = 2 Y Y 0 Q bln(^) = 2 V Y N ab ln( 

, I ab , 


ta Sb 


a=l b=1 


a=1 b=1 


N ab *N 
Nn b 


( 6 . 22 ) 


Notons que ce rapport de vraisemblance est relativement proche de l'in- 
formation mutuelle entre les variables Xa et Xb, notion qui sera reprise 
par certaines fonctions de score des réseaux bayésiens (voir équations 6.26 
page 145 et 6.27 page 145). 

Les équations 6.21 et 6.22 testent l'indépendance entre deux variables. 
L'utilisation de ces tests pour la recherche de structure dans les réseaux 
bayésiens nécessite une adaptation pour les tests d'indépendance condi- 
tionnelle entre deux variables Xa et Xb conditionnellement à un ensemble 
quelconque de variables Xç. Pour cela le principe ne change pas, il faut 
mettre en concurrence les deux modèles suivants : 

• le modèle observé p Q = P(Xa,Xb I Xq), représenté par les occur- 
rences observées O Q b C = N Q b C où N Q b C est le nombre d'occurrences 
de {X A = x a , X B = x b et X c = x c } ; 

• le modèle théorique p t = P(Xa I ‘Lç)P(Xb | Xq), représenté par les 
occurrences théoriques T Q b C = 


N a . c *N.bc 

N 


- ( 138 y 
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»► Définition 6.3 (x 2 conditionnel) 

Soit la statistique suivante (de degré de liberté df = (ta — 1 )(tb — 1 )rc) ■' 


a=l b=l c=1 


( O abc T, 


abc J 


T, 


abc 


(6.23) 


L'hypothèse d’indépendance entre Xa et Xb conditionnellement à Xq est véri- 
fiée si x 2 < Xqhéori ue^^’ ^ ~~ (p our un sewz'Z de confiance a). 


Se pose ici un inconvénient majeur lorsque le nombre de variables dis- 
ponibles est important : plus Xç est grand, plus il y a de termes dans la 
somme de l'équation 6.23 (df croît exponentiellement) et plus les N a b C sont 
faibles, ce qui rend le test du x 2 peu applicable en grande dimension. 

Spirtes et al. proposent une heuristique simple pour pallier cet incon- 
vénient : si le nombre de données n'est pas suffisamment important par 
rapport au degré de liberté ( df > ), alors l'hypothèse est rejetée et les 

variables Xa et Xb sont déclarées dépendantes conditionnellement à Xq. 

Grâce à ces tests statistiques, il est possible de déterminer une série de 
contraintes sur la structure du réseau bayésien recherché : une indépen- 
dance entre deux variables se traduit par l'absence d'arc entre deux nœuds, 
une dépendance conditionnelle correspond à une V-structure, etc. Nous al- 
lons maintenant étudier les deux familles d'algorithmes qui utilisent ces 
informations pour apprendre la structure du réseau bayésien. 


► Algorithmes PC et IC 

La détermination des indépendances conditionnelles à partir de don- 
nées peut donc permettre de générer la structure du réseau bayésien repré- 
sentant toutes ces indépendances. 

Sur ce principe, Spirtes, Glymour et Scheines [SGS93] ont tout d'abord 
proposé l'algorithme SGS. Celui-ci part d'un graphe non orienté complè- 
tement relié et teste toutes les indépendances conditionnelles pour suppri- 
mer des arêtes. Il s'agit de chercher ensuite toutes les V-structures et de 
propager l'orientation des arcs obtenus sur les arêtes adjacentes. 

Cette méthode requiert malheureusement un nombre de tests d'indé- 
pendance conditionnelle exponentiel par rapport au nombre de variables. 
Spirtes et al. ont alors proposé une variation de SGS, l'algorithme PC [SGS93] 
détaillé dans la table 6.6 ci-après qui limite les tests d'indépendance aux in- 
dépendances d'ordre 0 (X A — X B ) puis aux indépendances conditionnelles 
d'ordre 1 (Xa^Xb | Xc), et ainsi de suite. 
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• Construction d’un graphe non orienté ^ 

Soit G le graphe reliant complètement tous les nœuds X 

i <— 0 

Répéter 

Recherche des indépendances cond. d’ordre i 

V{X Al X B }£ A- 2 tels que X A -X B et Card(Adj(£,X Al X B )) > i 
V5 c Adj(g,X A ,X B ) tel que Card(S) =i 
siX A J_X B | S alors 

• suppression de l’arête X A - X B dans G 

• SepSet(X A , X B ) <— SepSet(X A , X B ) U S 

• SepSet(X B , X A ) <— SepSet(X B , X A ) U S 
i <- i + 1 

Jusqu’à Card(Adj (G, X A ,X B )) < i,V{X A ,X B } e A 2 

• Recherche des V-structures 

V{X A , X B , X c } e A 3 tels que -X7>G et X A - X c - X B , 

si X c ^ SepSet(X A ,X B ) alors rajouter X A — > X c <— X B (V-structure) 

• Ajout récursif de — > 

Répéter V{X A ,X B } e X 1 , 

si X A - X B et X A X B , alors rajouter X A — > X B 
si -'X A X B , VX C tel que X A — > X c et X c - X B alors rajouter X c — > X B 
Tant qu’il est possible d’orienter des arêtes 

V ) 


Tab. 6.6 Algorithme PC 


L'exemple 6.7 page 143 illustre la façon dont les tests d'indépendance 
conditionnelle permettent de simplifier le graphe non dirigé complètement 
connecté du départ (étapes la à le), puis dirigent les arêtes des V-structures 
détectées dans les données (étape 2). 

À l'issue de ces deux étapes, le graphe obtenu est un CPDAG qu'il faut 
finir d'orienter, en s'appliquant à ne pas rajouter de V-structures non dé- 
tectées précédemment (étapes 3 et 4). Notons que les règles proposées par 
Spirtes et al. pour ces deux dernières étapes peuvent être implémentées de 
manière plus systématique par l'algorithme de Dor et Tarsi (voir l'algo- 
rithme 6.5 page 137) détaillé dans la section 6.2.3 page 133. 


^Notations de l'algorithme PC : 


V 


X 

Adj(CXA) 

Adj(g,XA,XB) 

x A -x B 

X A ^x B 

x A x B 

X A X B 


ensemble de tous les nœuds 

ensemble des nœuds adjacents à X A dans G 

AdUG,X A )\{X B ] 

il existe une arête entre X A et X B 

il existe un arc de X A vers X B 

X A et X B adjacents X A - X B , X A — > X B ou X B — > X A 

il existe un chemin dirigé reliant X A et X B 


~\ 


J 
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La première étape de l'algorithme PC (recherche d'indépendances condi- 
tionnelles) est l'étape la plus coûteuse de l'algorithme. Spirtes et al. ont sug- 
géré plusieurs simplifications ou heuristiques permettant de diminuer cette 
complexité. 

• Dans l'algorithme PC*, ils proposent de ne plus parcourir tous les 
S possibles, mais seulement les ensembles de variables adjacentes 
à Xa ou Xb qui sont sur un chemin entre Xa et Xr. Cette solution 
est malheureusement inutilisable avec un trop grand nombre de va- 
riables puisqu'elle revient à stocker tous les chemins possibles dans 
le graphe. 

• Trois heuristiques permettent d'accélérer l'algorithme PC en choisis- 
sant judicieusement les nœuds Xa et Xr et l'ensemble S : 

o PC-1 : les couples de variables {Xa, Xr) et les ensembles S possibles 
sont parcourus dans Tordre lexicographique. 
o PC-2 : les couples de variables {Xa,Xr} sont testés dans Tordre 
croissant de la statistique utilisée pour le test d'indépendance (des 
moins dépendants aux plus dépendants). Les ensembles S sont 
parcourus dans Tordre lexicographique. 
o PC-3 : pour une variable Xa fixée, sont testés d'abord les Xr les 
moins dépendants à Xa conditionnellement aux ensembles S les 
plus dépendants à Xa- 

L'algorithme IC ( Inductive Causation), proposé par Pearl [PeaOO], est basé 
sur le même principe, mais construit le graphe non orienté en rajoutant 
des arêtes au lieu d'en supprimer. Il faut noter que Pearl [PV91] a proposé 
en 1991 un algorithme IC différent qui prend en compte les variables la- 
tentes. Cet algorithme, renommé IC* dans [PeaOO], est présenté dans la sec- 
tion 6.2.8 page 177. 
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Etape 1 c : Suppression des indépendances conditionnelles d’ordre 2 


Test du x 2 sur les données : 

DIS i {L, B} 

X_LO | {T, L} 

D±0 | {T, L} 



© (i 

Étape 2 : Recherche des V-structures 

© 



Test du x 2 sur les données : 
découverte de la V-structure 

T -> O <— L 


- Étape 3 : Orientation récursive de certaines arêtes (aucune ici) 

- Étape 4 : Orientation des arcs restants : 

© a 



Seule condition : 

ne pas introduire de nouvelle 

V-structure 


Dans cet exemple, le test du x 2 sur 5000 exemples n’a pas réussi à retrouver trois arcs 
(A — r T, O — » X et O — > D). En supposant que nos données aient pu nous permettre de 
trouver un lien O-X, l’étape 3 aurait forcé son orientation en O — > X pour ne pas générer 
une V-structure O — > X <— T (ou L) non détectée dans l’étape 2. 


Tab. 6.7 Exécution de l'algorithme PC 
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► Quelques améliorations 

Des travaux récents ont repris le principe des algorithmes IC et PC en 
essayant de diminuer le nombre de tests d'indépendance conditionnelle 
nécessaires dans les deux premières étapes de ces algorithmes. Ces travaux 
vont aussi s'inspirer de méthodes d'apprentissages basées sur des scores 
que nous présenterons en section 6.2.5. Citons, par exemple, l'approche par 
squelette de van Dijk et al. [vvT03], celle de de Campos et al. [dHOO] ou les 
deux algorithmes BN-PC A et B proposés par Cheng et al. [CGK+02] qui ont 
donné naissance à un logiciel d'apprentissage de réseaux bayésiens Belief 
Netivork PowerConstructor . 

L'algorithme BN-PC-B [CBL97b] est le plus général des deux. Le prin- 
cipe de cet algorithme est simple et se décompose en trois phases : (1) uti- 
liser l'arbre de recouvrement maximal ( MWST (Maximum Weight Spanning 
Tree), voir algorithme 6.8 page 151), arbre qui relie les variables de manière 
optimale au sens de l'information mutuelle comme graphe non dirigé de 
départ, puis (2) effectuer un nombre réduit de tests d'indépendance condi- 
tionnelle pour rajouter des arêtes à cet arbre, et (3) finir avec une dernière 
série de tests pour supprimer les arêtes inutiles et détecter les V-structures. 
Le graphe partiellement dirigé obtenu à l'issue de la phase C est alors 
orienté complètement de la même manière que pour les algorithmes IC et 
PC. 

Afin de diminuer le nombre de 0(n 4 ) tests d'indépendance condition- 
nelle à effectuer dans le pire des cas pour BN-PC-B, l'algorithme BN-PC-A 
[CBL97a] considère un ordre des nœuds qui permet d'orienter les arêtes 
dès la phase 1 de l'algorithme. Cela permet de tester au maximum 0(n 2 ) 
indépendances au lieu de 0(n 4 ). 

6.2.5 Algorithmes basés sur un score 

Contrairement à la première famille de méthodes qui tentaient de re- 
trouver des indépendances conditionnelles entre les variables, les approches 
suivantes vont soit chercher la structure qui va maximiser un certain score, 
soit chercher les meilleures structures et combiner leurs résultats. 

Pour que ces approches à base de score soient réalisables en pratique, 
nous verrons que le score doit être décomposable localement, c'est-à-dire 
s'exprimer comme la somme de scores locaux au niveau de chaque nœud. 
Se pose aussi le problème de parcours de l'espace B des réseaux bayésiens à 
la recherche de la meilleure structure. Comme une recherche exhaustive est 
impossible à effectuer, les algorithmes proposés travaillent sur un espace 
réduit (espace des arbres, ordonnancement des nœuds) ou effectuent une 
recherche gloutonne dans cet espace. 
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► Les scores possibles 

La plupart des scores existants dans la littérature appliquent le principe 
de parcimonie du rasoir d'Occam : trouver le modèle qui correspond le 
mieux aux données V mais qui soit le plus simple possible. Ainsi ces scores 
sont souvent décomposables en deux termes : la vraisemblance L(P | 0, B) 
et un second terme qui va tenir compte de la complexité du modèle, à l'aide 
entre autres, du nombre de paramètres nécessaires pour représenter le ré- 
seau. 

Soit X| un nœud du réseau bayésien de taille rt, et pa(X|) ses parents. Le 
nombre de paramètres nécessaires pour représenter la distribution de pro- 
babilité P(Xt | pa(X|) = Xj) est égal à rt — 1. Pour représenter P(Xt | pa(XO), 
il faudra donc Dim(X L) B) paramètres, avec : 

Dlm(Xi, £>) = (rt — 1 ) ]^[ Tj = (r i -1)q i (6.24) 

Xj Gpa(Xi ) 


Le nombre de paramètres nécessaires pour représenter toutes les distri- 
butions de probabilités du réseau B est Dim(£>) : 

ri n 

Dim [B) = Y_ Dim(Xi, B) = ^(r i -^)q i (6.25) 

i=l i=1 


Différents scores ont alors été proposés : 

• L ' entropie conditionnelle de la structure B [Bou93] : 


qt 


H [B,V) = LLL 

i=i j=i k=i 


log(^) 
N 5 Ny 


(6.26) 


En partant de l'équation 6.3 page 119, il est possible de faire le lien 
entre l'entropie et le maximum de la log-vraisemblance : 

Démonstration 


logL(2>| Q,B) 

logL(P | 0 MV , B) 
logL(P | 9 mv ,B) 
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n qt r t 

lo g 0 DX 

i=1 j = | k=1 

n qt n 

i=i j=i k=i x ’~> 

—N x H [B,V] 


(6.27) 
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La vraisemblance - ou l'entropie - n'impose aucun contrôle sur la 
complexité de la structure recherchée. Au contraire, pour un ensemble 
de données B fixé, la structure la plus vraisemblable sera celle qui 
possède le plus de paramètres, c'est-à-dire la structure reliant toutes 
les variables [FGG97], 

• Les critères AIC [Aka70] et BIC [Sch78] peuvent aussi s'appliquer aux 
réseaux bayésiens : 

ScoreAIC(£>, V) = log L[V | 0 MV , B) - Dim [B] (6.28) 

ScoreBIC(£>, V) = log L[V | 0 MV , B) - jDim(B) log N (6.29) 

A la différence de la vraisemblance, ces deux équations 6.28 et 6.29 
illustrent bien la volonté de rechercher un modèle capable de bien 
modéliser les données tout en restant simple. 

• La longueur de description minimale : Il est aussi possible d'appliquer le 
principe de longueur de description minimale MDL ( Minimum Des- 
cription Length ) [Ris78]. Ce principe général affirme que le modèle re- 
présentant au mieux un ensemble de données est celui qui minimise 
la somme des deux termes suivants : (1) la longueur de codage du 
modèle et (2) la longueur de codage des données lorsque ce modèle 
est utilisé pour représenter ces données. 

Plusieurs travaux ont appliqué cette approche aux réseaux bayésiens : 
Bouckaert [Bou93], Lam et Bacchus [LB93] et Suzuki [Suz99]. Nous ne 
citerons ici que l'approche de Lam et Bacchus [LB93] : 

ScoreMDL(£>, V) = log L(£> | 0 MV , B)— \ Ab I log N — c.Dim(B) 

(6.30) 

où | Ab | est le nombre d'arcs dans le graphe B et c est le nombre de 
bits utilisés pour stocker chaque paramètre numérique. 

• Le score BD ( bayesian Dirichlet) : Cooper et Herskovits [CH92] pro- 
posent un score basé sur une approche bayésienne. En partant d'une 
loi a priori sur les structures possibles P (B), le but est d'exprimer la 
probabilité a posteriori des structures possibles sachant que les don- 
nées V ont été observées P [B j V), ou plus simplement P (B, V) : 


ScoreBD(£>, V) 


P {B,V) = 


L(V\ 0 , 25) P (0 | B)?(B) d0 


m) 


L{V | 0, £>)P(0 | B) d0 


(6.31) 
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L'intégrale de l'équation 6.31 page précédente n'est pas toujours ex- 
primable simplement. De manière générale, Chickering et Hecker- 
man [CH96] montrent comment utiliser l'approximation de Laplace 
pour calculer cette intégrale (avec un échantillon de grande taille), et 
qu'une simplification de cette approximation mène au ScoreBIC. 
Avec les hypothèses classiques d'indépendance des exemples, et en 
prenant une distribution a priori de Dirichlet sur les paramètres, il est 
néanmoins possible d'exprimer le ScoreBD facilement : 


ScoreBD(13, D) = P [B] nn 

i=i j=i 


Hat 


r(Ny + OC M ) 


n 

k=l 


k(Nijlc + a ijk) 

rjcxtik) 


(6.32) 


où F est la fonction Gamma 

• Le score BDe ( Bayesian Dirichlet Equivalent) : ce critère proposé par He- 
ckerman [HGC94] s'appuie sur la même formule que le score Bayesian 
Dirichlet avec des propriétés supplémentaires intéressantes comme 
la conservation du score pour des structures équivalentes (voir page 
161). 

Le score BDe utilise une distribution a priori sur les paramètres définie 
par : 

aijk = N' x P(Xi = x k) pa(Xt) = xj | B c ) (6.33) 

où B c est la structure a priori n'encodant aucune indépendance condi- 
tionnelle (graphe complètement connecté) et N ' est un nombre d'ex- 
emples équivalent définis par l'utilisateur. 

Dans le cas où la distribution de probabilité conditionnelle en Xt est 
uniforme, Heckerman et al. montrent que l'on retrouve les coefficients 
de Dirichlet de l'équation 6.34 correspondant à un fl priori uniforme 
non informatif proposé tout d'abord par [Bun91] (le score BDe uti- 
lisant les <Xij k décrits dans l'équation 6.34 est souvent appelé score 
BDeu). 

N' 

aqk = — (6-34) 

1 iHi 


Heckerman et al. [HGC94] montrent aussi que le score BDe utilisant 
les fl priori définis par l'équation 6.33 n'a plus besoin d'utiliser une 
distribution de Dirichlet comme loi a priori sur les paramètres. 

• Le score BDy (generalized bayesian Dirichlet) [BK02] proposent une gé- 
néralisation du score BD en introduisant un hyperparamètre y : 

(W7) 

www.frenchpdf.com 


6.2. Apprentissage de la structure 


ScoreBDy(£>, V) 


= P(B) 


TT TT + a ij) 

üf=T r((y + 1)Nij + aij) 


n 

n 


r((y + 1 )'Nijlc + Oijlc) 

r(yN ijk + otij k ) 


. (6.35) 


Borgelt et al. démontrent aussi que leur fonction de score permet de 
passer du score bayésien (y = 0) à l'entropie conditionnelle (y — > 
+oo), contrôlant ainsi la tendance à sélectionner des structures simples. 


► Déterminer un a priori sur les structures 

Certains scores (ScoreBD, ScoreBDe et ScoreBDy) utilisent des mé- 
triques bayésiennes et nécessitent la détermination d'une loi de probabilité 
a priori sur les structures. Cette distribution de probabilité est soit uniforme 
(la solution la plus simple), soit calculable à partir de connaissances a priori 
fixées par un expert (en fixant une distribution de probabilité sur les arcs 
possibles ou une structure de référence). 

• La loi uniforme est la distribution sur les structures la plus simple : 

P [B] = constante 

• Il est également possible de décomposer la probabilité d'une struc- 
ture comme produit des probabilités de chaque relation parent-nœud : 

n 

p(s) =n p (p a ?-> x i) 

i=l 

où P (paf — > Xi) est la probabilité que paf soient les parents de X L . 
Ces probabilités locales peuvent être fournies par exemple par un ex- 
pert, comme le proposent Richardson et al. [RD03]. 

• Une autre façon de prendre en compte les connaissances expertes est 
de privilégier les structures proches du réseau a priori B e donné par 
un expert : 

P [B) oc K 5 

où 6 est le nombre d'arcs différents entre B et B e et k un cœfficient de 
pénalisation [HGC94], 
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► Pourquoi chercher la meilleure structure ? 

Dans de nombreux domaines, la structure de score maximal est sou- 
vent beaucoup plus vraisemblable que les autres (voir [HMC97, FKOO]). Par 
contre, il existe aussi des situations où plusieurs structures candidates sont 
à peu près aussi vraisemblables. Dans ce cas, [FKOO] proposent, toujours 
dans le cadre des approches bayésiennes, l'approche de model averaging. Le 
principe n'est pas d'interroger le meilleur modèle, mais de faire la moyenne 
sur tous les réseaux possibles. 

Supposons par exemple que nous cherchions la probabilité de la va- 
riable Xa : 

?(X a \V) = ^P(X a \B,V)P(B\V) (6.36) 

B 

Nous avons vu avec l'équation 6.20 page 132 que l'espace des réseaux bayé- 
siens est superexponentiel. Il n'est donc pas question de calculer tous les 
termes de cette somme. L'approximation la plus courante est issue des mé- 
thodes MCMC [MRY+93] où quelques structures vont être générées puis 
utilisées dans le calcul de 6.36. Une autre approche possible consiste à uti- 
liser les méthodes de type bootstrap [FGW99] pour générer différents en- 
sembles de données qui serviront à obtenir plusieurs structures candidates, 
et à utiliser l'équation 6.36 avec ces structures. 

► Recherche dans l'espace des réseaux bayésiens 

L'estimation du score d'un réseau bayésien peut mener à de nombreux 
calculs inutiles et rendre les méthodes d'apprentissage de structure inutili- 
sables en pratique. La première précaution à prendre concerne l'utilisation 
d'un score décomposable localement pour ne pas recalculer complètement le 
score d'une nouvelle structure. 

Tl 

Sco re[B,T>) = constante + ^~ score(X|,pQ|) (6.37) 

i=i 

Il est facile de montrer que les scores évoqués précédemment sont des 
scores décomposables (en prenant le logarithme pour ScoreBD et Score- 
BDe). Par la suite, nous noterons Score(.) le score global et score(.) le score 
local en chaque nœud. 

Cette décomposition locale du score permet une évaluation rapide de 
la variation du score entre deux structures en fonction d'un nombre ré- 
duit de scores locaux liés aux différences entre ces deux structures. Il reste 
maintenant à parcourir l'espace B des réseaux bayésiens pour trouver la 
structure possédant le meilleur score. Nous avons vu en 6.2.3 page 133 
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qu'une recherche exhaustive n'est pas envisageable. Plusieurs heuristiques 
permettent de remédier à ce problème, soit en réduisant l'espace de re- 
cherche à un sous-espace particulier (l'espace des arbres), soit en ordonnant 
les nœuds pour ne chercher les parents d'un nœud que parmi les nœuds 
suivants, soit en effectuant une heuristique de parcours de l'espace B de 
type recherche gloutonne. 

• Restriction à l'espace des arbres 

Cette méthode utilise une notion classique en recherche opération- 
nelle, Y arbre de recouvrement maximal ( Maximum Weight Spanning Tree) : 
l'arbre qui passe par tous les nœuds et maximise un score défini pour 
tous les arcs possibles. 

Chow et Liu [CL68] ont proposé d'utiliser un score basé sur un critère 
d'information mutuelle : 


Wcl(X A) X b ) 


^P(X A = a,X B = b)log 

a, b 


P(X A = a, X B = b) 
P(X A = a)P(X B = b) 


N a b J ^ N abhl 
HsT ° g N a .N. b 

a, b 


(6.38) 


Heckerman [HGC94] propose d'utiliser un score quelconque, locale- 
ment décomposable, en définissant le poids d'une arête par : 


W(X A , X B ) = score(X A) X B ) - score(X A) 0) (6.39) 


où score(X A , X B ) est le score local en X A en supposant que X B est son 
parent, et score(X A , 0) est le score local en X A en supposant qu'il ne 
possède aucun parent. 


Parmi toutes les heuristiques qui permettent de construire l'arbre op- 
timal à partir des poids des arêtes, nous utiliserons l'algorithme de 
Kruskal (voir par exemple [Sak84, CLR94, AU98]). Celui-ci part d'un 
ensemble de n arbres d'un seul nœud (un par variable) et les fusionne 
en fonction du poids des arêtes (voir algorithme 6.8 ci-après). 


L'arbre de recouvrement maximal est un arbre non orienté reliant 
toutes les variables. Notons que cet arbre non orienté est le représen- 
tant de la classe d'équivalence de Markov de tous les arbres dirigés 
possédant ce même squelette. 


En effet, par définition, un arbre orienté ne peut pas contenir de V- 
structure donc tous les arbres de même squelette sont équivalents au 
sens de Markov (voir section 6.2.3 page 133). 


L'orientation de cet arbre non orienté pourrait donc se faire en uti- 
lisant l'algorithme 6.5 page 137, ou plus simplement, en choisissant 
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^Algorithme MWST dirigé 
• Construction de l’arbre optimal (Kruskal) 

VXi,T(X t ) ={XJ 
B' <— 0 
V(X t ,Xj) eA 

si T (Xi) / T(Xj ) alors 

• B’ <-B’ U(Xi,Xj) 

• T' <— T(Xi) U T(Xj ) 

• T(X t ) <- T' 


•T(Xj 


T' 


' Orientation des arêtes 

St- 0 

{pcu}<— ParcoursProfondeur(£>",X r ) 

VXt, 

si pa t ^ 0 alors ajout de pat — > X t dans B 



liste des arêtes (X t , X 3 ) dans l’ordre décroissant des W 

arbre passant par le nœud X t 

racine choisie pour orienter l’arbre 

parent du nœud X t 

arbre optimal non orienté 

structure finale obtenue par l’algorithme 


Tab. 6.8 Algorithme MWST dirigé 


arbitrairement un nœud racine et en dirigant chaque arête à partir de 
ce nœud. Pour cela, il suffit d'effectuer un parcours en profondeur de 
l'arbre en mémorisant le père de chaque nœud, puis de se servir de 
cette information pour orienter les arêtes. 

Nous appellerons algorithme MWST dirigé, l'algorithme de construction 
d'un arbre orienté qui utilise l'algorithme de Kruskal pour obtenir 
l'arbre de recouvrement optimal non orienté, puis qui oriente les arêtes 
à partir d'un nœud racine arbitraire. 

L'exemple 6.9 ci-après illustre certains avantages et inconvénients de 
cet algorithme. Il permet d'obtenir rapidement un arbre orienté très 
proche de la structure d'origine. De plus, par définition de l'arbre 
de recouvrement, aucun nœud ne sera écarté de la structure, ce qui 
permet de retrouver des liens difficiles à apprendre (comme le lien 
A <— T de l'exemple, qui n'a pas un poids W très fort et qui est le 
dernier lien ajouté). Cette propriété peut aussi devenir gênante puis- 
qu'elle forcera des variables à appartenir au graphe alors qu'elles ne 
seraient pas vraiment utiles au problème. 
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- Le réseau théorique asia est utilisé pour 
générer 10000 exemples et calculer la ma- 
trice W. 


- Les arêtes potentielles sont triées dans l'ordre décroissant des W : 

B-D (1), L-B (2), O-X (3), L-X, S-B (4), T-0 (5), S-D, S-L (6), O-D, T-X, S-O, L-D, X-D, 
S-X, T-D, L-B, B-O, B-X, A-T (7), S-T, A-L, A-O, T-B, T-L, A-S, A-X, A-D, A-B 


- Les arêtes en gras sont ajoutées au fur et à mesure dans l’arbre non orienté. Les autres 
sont ignorées car les nœuds correspondants appartiennent déjà à l’arbre au moment où 
l'arête est traitée. 


® & 

0 

0 





- Arbre optimal (les arêtes sont étiquetées 
en fonction de leur ordre d’apparition à 
l’étape précédente). 


- Arbre orienté obtenu par un parcours en 
profondeur, en partant de A. 


- Le graphe obtenu est bien l’un des meilleurs arbres possibles. En effet, rajouter l’arc 
O — > D ou inverser les arcs O — > L — > S pour se rapprocher du graphe théorique nous 
fait sortir de l'espace des arbres. 


Tab. 6.9 Exécution de l’algorithme MWST dirigé 
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( Algorithme K2 


Pour i = 1 à n 

peu <— 0 
gotd <- g(i,pai) 

O K <— vrai 

Répéter 

• Chercher Xj e Pred{Xi)\pa t qui maximise g(i,pai u{Xj}) 

• gnew <- g(i,paO U{X,} 

• Si gnew A g 0 id alors 

9 o l d ^ Qnew 

pa t <- pat U{Xj} 

sinon OK <— faux 
Tant Que OK et | pa t |< u 


f Notations : 

Pred() 
u 

P a t 

g(f,pa t ) 


relation d’ordre sur les nœuds X t 

borne sup. du nombre de parents possibles pour un nœud 

ensemble des parents du nœud Xi 

score local défini dans l’équation ( 6.40) 


Tab. 6.1 0 Algorithme K2 


• Ordonnancement des nœuds 

Un autre moyen pour limiter l'espace de recherche consiste à rester 
dans l'espace des réseaux bayésiens, tout en ajoutant un ordre sur les 
nœuds pour se limiter dans la recherche des arcs intéressants : si X L 
est avant Xj alors il ne pourra y avoir d'arc de Xj vers X^. Cette hypo- 
thèse forte réduit le nombre de structures possibles de NS(u) (équa- 
tion 6.20 page 132)àNS 7 (u) = 2 n(n-1 '/ 2 . Par exemple, N S 7 (5) = 1024 
contre NS(5) = 29281 et NS 7 (10) = 3.5 x 10 13 contre NS(10) = 
4.2 x 10 18 . 


Pour rendre cette idée exploitable, il faut encore diminuer l'espace de 
recherche en ajoutant des heuristiques supplémentaires. Ainsi l'algo- 
rithme K2 de Cooper et Herskovits [CH92] détaillé dans la table 6.10 
reprend le score bayesian Dirichlet (équation 6.32 page 147) avec un a 
priori uniforme sur les structures. Ce score peut s'écrire de la façon 
suivante : 

n 

ScoreBD(5, V) oc g(i,pat) 
t=i 


avec 


9 (d, p cxt) 


FT r(Oij) T"T rjNijfc + CXijlc) 
\\ r(N t j + cxtj) 1 Jj nâïjij 


(6.40) 
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Pour maximiser ScoreBD, Cooper et Herskovits proposent d'effec- 
tuer une recherche gloutonne en cherchant les parents p ai du nœud 
Xi qui vont maximiser g(i,pai), et ainsi de suite, sans remettre en 
cause les choix effectués précédemment. Ils proposent aussi de fixer 
une borne supérieure u au nombre de parents possibles pour un nœud. 

L'algorithme K3 présenté par Bouckaert [Bou93] reprend le principe 
de l'algorithme K2 en remplaçant le score bayesian Dirichlet par un 
score MDL. L'algorithme BENEDICT proposé par Acid et de Cam- 
pos [AdCOl] reprend à peu près le même principe en utilisant comme 
score l'information mutuelle conditionnelle. 

L'inconvénient principal de ces méthodes réside dans la détermina- 
tion de l'ordre des nœuds. Ceci est illustré dans l'exemple 6.11 ci- 
après : en utilisant l'ordre topologique du réseau recherché, l'algo- 
rithme parvient à retrouver la structure recherchée (a). Par contre, 
dans deux situations plus réalistes (b) et (c), l'algorithme donne des 
structures de qualité variable. Dans l'exemple (b), l'ordonnancement 
des nœuds empêche de retrouver la V-structure T — > O <— L et génère 
à la place la meilleure structure entre les trois nœuds, compte tenu 
des contraintes fixées. 

Pour tenter de résoudre ce problème d'initialisation, citons les tra- 
vaux de [HGPS02] qui utilisent une approche de type algorithmes gé- 
nétiques pour trouver l'ordonnancement optimal des nœuds et ainsi 
la meilleure structure grâce à l'algorithme K2. 

• Recherche gloutonne dans B 

Vue la taille superexponentielle de l'espace des réseaux bayésiens, 
une autre solution logique est d'utiliser des méthodes d'optimisa- 
tion simples pour parcourir cet espace moins brutalement que les mé- 
thodes de type K2, sans toutefois parcourir tout l'espace. 

Les principales différences entre les méthodes proposées résident dans 
la façon de parcourir l'espace, c'est-à-dire dans le choix des opéra- 
teurs permettant de générer le voisinage d'un graphe, et l'utilisation 
d'heuristiques supplémentaires pour simplifier le voisinage obtenu. 

Chickering et al. [CGH95] utilisent l'algorithme classique de recherche 
gloutonne ( Greedy Search) dans l'espace des réseaux bayésiens décrit 
dans la table 6.15 page 159. La notion de voisinage utilisée, définie à 
l'aide de trois opérateurs : ajout, suppression ou inversion d'arc, est 
illustrée dans l'exemple 6.12 page 156. L'utilisation d'un score décom- 
posable localement nous permet de calculer rapidement la variation 
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du score pour les structures obtenues avec ces trois opérateurs (voir 
table 6.14 page 158). 
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Considérons le graphe B suivant ainsi qu'un voisinage défini par les trois opérateurs ajout 
( INSERT ), suppression (DELETE) et retournement (REVERSE) d’arc. Remarquons que 
les graphes résultants ne sont retenus que s’ils sont sans circuit. 



- Génération du voisinage de B : 



Notons que pour cet exemple de petite taille, le voisinage comprend déjà neuf DAG dont 
il va falloir maintenant évaluer la qualité. Pour des structures plus complexes, la taille 
du voisinage devient beaucoup plus importante, ce qui rend nécessaire l’utilisation de 
scores locaux pour limiter les calculs et l'implémentation d’un système de cache pour ne 
pas recalculer plusieurs fois chaque score local. 


Tab. 6.12 Exemple de voisinage GS 
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- Graphe obtenu avec les données asia et le 
score bic en partant d’un graphe vide. 


- Graphe obtenu sur les mêmes données en 
partant de l’arbre fourni par MWST. 


Une initialisation quelconque peut faire converger l’algorithme vers un optimum local de 
mauvaise qualité (voir exemple 6.17 page 163). Une initialisation plus rusée permet d’ar- 
river à une meilleure solution. Notons que l’arc A <— T n’a pas été jugé intéressant car 
l’augmentation du terme de vraisemblance du score BIC (voir équation 6.29 page 146) 
est contrebalancée par l’augmentation du second terme qui pénalise les structures les 
plus complexes. 


Tab. 6.13 Résultat de l’algorithme GS avec le score BIC 


L'algorithme de recherche gloutonne est connu pour converger vers 
un optimum qui est souvent local et de mauvaise qualité (voir exem- 
ple 6.17 page 163). Une façon simple d'éviter de tomber dans cet opti- 
mum local est de répéter plusieurs fois la recherche gloutonne à par- 
tir d'initialisations tirées aléatoirement. Cette méthode connue sous 
le nom de iterated hill climbing ou random restart permet de découvrir 
plusieurs optima, et a donc plus de chances de converger vers la so- 
lution optimale si la fonction de score n'est pas trop bruitée. 

Dans le même esprit, d'autres techniques d'optimisation peuvent être 
utilisées, comme par exemple le recuit simulé ( Simulated Annealing) 
[KGV83]. Citons aussi les travaux de Larranaga et al. [LKMY96] qui se 
servent d'algorithmes génétiques pour parcourir l'espace des DAG. 

Jouffe et Munteanu ([JMOO], [JM01]) proposent une autre série d'opé- 
rateurs pour éviter de tomber dans des minima locaux facilement re- 
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Opérateur 

INSERT(X Al X B ) 

DELETE(X a ,X b ) 

REVERSE(X a , X B ) 

Variation 

du score 

s(X B ,Pa+* A ) 

— s(Xb , P ax B ) 

s(X B ,Pa x * A ) 

— s(X B , Pax B ) 

s(X Bi Pq x ^ a ) 

— s(Xb , P ax B ) 
+s(X A ,Pa+* B ) 

— s(X A ,Pax A ) 


Notations: Pa Xi Xi = Pa(X t ) \ {XQ Pa x Xi = Pa(X t ) U{Xj} 

Tab. 6. 1 4 Exemple d'opérateurs dans l'espace des réseaux bayésiens et calcul de la variation 
du score pour chacun des opérateurs 


connaissables (voir exemple page 163), ainsi qu'une méthode de par- 
cours encore plus simple dans l'espace des ordonnancements pos- 
sibles, en utilisant ensuite l'algorithme K2 pour calculer la meilleure 
structure possible pour chaque ordonnancement. 

Les méthodes itératives comme la recherche gloutonne souffrent sou- 
vent de problèmes d'initialisation. Il est parfois possible d'utiliser des 
connaissances expertes pour définir un graphe de départ. Dans le cas 
contraire, sur une idée de [Hec98], nous avons utilisé dans [LF04] 
l'arbre obtenu par l'algorithme MWST décrit précédemment, ce qui 
permet souvent d'arriver à une meilleure solution qu'avec une ini- 
tialisation aléatoire (ou vide), ou à la même solution mais en moins 
d'itérations. 

L'exemple 6.13 page précédente nous montre l'intérêt d'une initialisa- 
tion rusée : en partant d'un graphe vide, l'algorithme converge vers 
une solution moyenne alors qu'une initialisation à l'aide de l'arbre 
optimal nous permet d'obtenir une solution plus proche de la réalité. 

Il faut noter ici un des inconvénients des méthodes à base de score : 
les dépendances faibles entre variables (A <— T dans l'exemple) ne 
sont pas jugées intéressantes car l'augmentation du terme de vrai- 
semblance du score est contrebalancée par l'augmentation du second 
terme qui pénalise les structures les plus complexes. 


► Algorithmes basés sur un score et données incomplètes 

Le premier problème à résoudre, lorsque les données sont incomplètes, 
concerne le calcul de la vraisemblance ou plus généralement du score pour 
une structure fixée, puis sa maximisation. 

Concernant la maximisation de cette vraisemblance, nous avons déjà 
évoqué en section 6.1.2 page 121 comment le principe de l'algorithme EM 
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^Algorithme Recherche Gloutonne 


• Initialisation du graphe B 

(Graphe vide, aléatoire, donné par un expert ou arbre obtenu par MWST) 

• Continuer <— Vrai 

• Score m ax <— score(S) 

• Répéter 

• Génération de V B , voisinage de B, à l’aide d'opérateurs : 

- Ajout d’arc, suppression d’arc, inversion d’arc 
(les graphes ainsi obtenus doivent être sans circuit) 

• Calcul du score pour chaque graphe de V B 

• Bnew <- argmax B , gVe (score(S')) 

• Si score(6 n ew ) > Score m ax alors 

Score m ax <— score(S ne w ) 

B i — Bnew 

sinon 

Continuer <— Faux 
Tant Que Continuer 


C Notations : 

Score() 
V B 
B 


fonction de score sur les structures possibles 
ensemble des DAG voisins du DAG B courant 
structure finale obtenue par l’algorithme 


Tab. 6.1 5 Algorithme Recherche Gloutonne (GS) 


pouvait être utilisé pour estimer les paramètres 0 d'une structure B fixée. 

Ce même principe s'applique aussi naturellement à la recherche conjointe 
de 0 et B pour donner ce que Friedman a d'abord appelé EM pour la sélection 
de modèle [Fri97] puis EM structurel [Fri98]. L'algorithme 6.16 ci-après pré- 
sente très sommairement l'application de l'algorithme EM à l'apprentissage 
de structure. 

L'étape de maximisation dans l'espace des paramètres de l'algorithme 
EM paramétrique (voir page 121) est maintenant remplacée par une maxi- 
misation dans l'espace { B , 0). Cela revient, à chaque itération, à chercher 
la meilleure structure et les meilleurs paramètres associés à cette structure. 
En pratique, ces deux étapes sont clairement distinctes 1 : 


B x = argmax 


(6.41) 

0 1 = argmax 

Q(B\0 : Æ i ~ 1 ,0 i ~ 1 ) 

(6.42) 


où Q(£>,0 : B*,©*) est l'espérance de la vraisemblance d'un réseau bayé- 
sien < B, 0 > calculée à partir de la distribution de probabilité des données 
manquantes P(L> m \ B*,©*). 

1 La notation Q(£>, • : . . . ) utilisée dans l'équation 6.41 correspond à Ee[Q(S, 0 : . . . )] 
pour un score bayésien ou à Q (B, 0 M v : . . . ) où 0 M v est obtenu par maximum de vrai- 
semblance 
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^Algorithme EM structurel générique 

• Initialiser i <— 0 

• Initialisation du graphe ç° 

( Graphe vide , aléatoire, donné par un expert ou arbre obtenu par MWST-EM) 

• Initialisation des paramètres 0°) 

• Répéter 

• i < — i + 1 

• (B l ,0 l ) = argmax Q(B,0 : S 1-1 ,0 i_l ) 

B,Q 

Tant Que | QU? 1 ,© 1 : S 1 1 , 0 1 1 ) — Qt^ 1 , e 1 1 iS^',© 1 -') |> e 


V 

f Notations : 

Q(B,0 : Z?*,0*) 


Espérance de la vraisemblance d’un réseau bayésien < B, 0 > 
calculée à partir de la distribution de probabilité des données 
manquantes P(D m | B *,©*) 


V. 


'N 


J 


Tab. 6.16 Algorithme EM structurel générique 


Il faut noter que la recherche dans l'espace des graphes (équation 6.41 
page précédente) nous ramène au problème initial, c'est-à-dire, trouver le 
maximum de la fonction de score dans tout l'espace des DAG. Heureuse- 
ment, grâce aux travaux de Dempster ( Generalised EM), il est possible de 
remplacer cette étape de recherche de l'optimum global de la fonction Q 
par la recherche d'une meilleure solution permettant d'augmenter le score, 
sans affecter les propriétés de convergence de l'algorithme. Cette recherche 
« d'une meilleure solution » (au lieu de « la meilleure ») peut alors s'ef- 
fectuer dans un espace plus limité, comme par exemple V#, l'ensemble des 
voisins du graphe B comme défini pour une recherche gloutonne classique. 

Concernant la recherche dans l'espace des paramètres (équation 6.42 
page précédente), [Fri97] suggère de répéter l'opération plusieurs fois, en 
utilisant une initialisation intelligente. Cela revient alors à exécuter l'algo- 
rithme EM paramétrique pour chaque structure B x à partir de la structure 
B°. 

La fonction Q à maximiser est très liée à la notion de score dans le cas 
des données complètes puisqu'il s'agit de l'espérance de cette fonction de 
score en utilisant une densité de probabilité sur les données manquantes 
fixée P(D m I B* ,&*). Dans ses deux articles concernant les algorithmes EM 
structurels Friedman adapte respectivement le score BIC et le score BDe 
pour les données manquantes. Décrivons ici le cas du score BIC : 


Q BIC (£,0 :£*,©*) = (6.43) 

Eg* ,©* [\o ë P(V 0 ,V m j B, 0)] - lDim(£;)logN 
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Comme le score BIC, Q BIC est lui aussi décomposable : 

Q BIC (£,0 : B*,©*) = (6.44) 

Y Q bic ( x i,Pi,@ X i|P t : 


où 


Q bic (X t , Pi,0 Xi|P . : #*,©*) = (6.45) 

Y Y N ijk lo g 0 ijk- ^y^Dim(Xi,13) 

Xi=x k Pi=paj 

avec Nî- k = E B ., 0 * [N yk ] = N * P(X| = x k , P^ = pcq | 13*, 0*) obtenu 
par inférence dans le réseau {£>*,0*} si {X^PJ ne sont pas complètement 
mesurés, ou calculé classiquement sinon. 

Les deux algorithmes EM structurels proposés par Friedman peuvent 
ainsi être considérés comme des algorithmes de recherche gloutonne (avec 
un score BIC ou BDe), avec un apprentissage EM paramétrique à chaque 
itération. 

À partir de ces considérations, et de nos travaux concernant l'initiali- 
sation des algorithmes de recherche gloutonne par l'arbre optimal reliant 
toutes les variables (MWST), nous avons proposé dans [LF05] une adap- 
tation de MWST aux bases de données incomplètes (MWST-EM) pouvant 
aussi être utilisée comme initialisation des algorithmes EM structurels clas- 
siques. 

L'algorithme MWST-EM est ainsi une instanciation de l'algorithme EM 
structurel générique (voir l'algorithme 6.16 page précédente) où la maximi- 
sation sur B (équation 6.41 page 159) ne s'effectue plus dans tout l'espace 
des DAG mais seulement dans l'espace des arbres. Cette simplification per- 
met d'éviter de simplifier la recherche dans le voisinage du graphe courant, 
comme doivent le faire les algorithmes EM structurels précédents, puisqu'il 
est possible de trouver directement le meilleur arbre maximisant une fonc- 
tion Q fixée. 

► Recherche dans l'espace des classes d'équivalence de Markov 

Certaines méthodes décrites précédemment ne travaillent pas réelle- 
ment dans l'espace B des réseaux bayésiens. Par exemple, des algorithmes 
tels que PC, IC ou BN-PC permettent d'obtenir le CPDAG représentant de 
la classe d'équivalence qu'il faut ensuite finir d'orienter. De même, l'algo- 
rithme MWST nous donne une structure non orientée qui est aussi le repré- 
sentant de la classe d'équivalence de tous les arbres orientés possédant le 
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même squelette. L'orientation finale de ces graphes peut mener à des DAG 
orientés différemment, mais impossibles à distinguer d'après les données. 

Chickering [Chi95] a montré que des réseaux bayésiens équivalents ob- 
tiennent le même score, pour la plupart des scores (AIC, BIC, BDe, MDL). 
L'utilisation de ces scores dans l'espace B des réseaux bayésiens débouche 
alors sur des découvertes de structures non globalement optimales [MB02], 
La table 6.17 ci-après nous montre l'exemple d'une recherche gloutonne 
(par ajout d'arcs) qui cherche à retrouver une V-structure initiale dans l'es- 
pace B des réseaux bayésiens à trois variables. Les scores classiques conser- 
vant les équivalences, l'algorithme peut se retrouver soit dans la situation 
n°l (découverte d'une structure optimale, c'est-à-dire la structure initiale) 
soit dans la situation n°2 (découverte d'une structure optimale localement). 

Pour éviter ce genre de situations sans utiliser de techniques d'opti- 
misation complexes comme le recuit simulé ou les algorithmes génétiques, 
certaines méthodes proposent de travailler directement dans l'espace E des 
classes d'équivalence, ou de tenir compte des propriétés d'équivalence pour 
mieux parcourir l'espace B. 

L'espace E est quasiment de même taille que l'espace B des réseaux 
bayésiens. Gillispie et Perlman [GL01] ont montré que le nombre moyen de 
DAG par classe d'équivalence semblait converger vers une valeur asymp- 
totique proche de 3.7 (en observant ce résultat jusqu'à n = 1 0 variables). 

Deux situations s'offrent donc à nous : soit travailler directement dans 
l'espace B, en tenant compte des propriétés de E en rajoutant des heuris- 
tiques pour éviter de tomber dans des minima locaux (Munteanu et al. 
[MB02]) ou en bridant les opérateurs de voisinage (Castelo et al. [CK02]), 
soit travailler directement dans l'espace E. 

Ainsi Chickering [Chi95, Chi96] propose une série d'opérateurs dans 
l'espace des PDAG (insérer une arête, supprimer une arête, insérer un arc, 
supprimer un arc, inverser un arc, créer une V-structure). 

Malheureusement, ces opérateurs sont trop lourds et l'algorithme pro- 
posé nécessite de nombreuses opérations entre l'espace des CPDAG, des 
PDAG intermédiaires et l'espace des DAG. Bendou et Munteanu [BM04] 
utilisent le même ensemble d'opérateurs, mais en travaillant directement 
dans un espace intermédiaire, l'espace des graphes chaînés maximaux. 
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Tab. 6.17 Découverte d'une structure de réseau bayésien non globale- 
ment optimale par une méthode d’ajout d’arcs dans l’espace B des ré- 
seaux bayésiens [MB02] : au lieu de retrouver la V-structure initiale (1), 
l'algorithme pourra converger vers un optimum local (2) 

Concernant la multitude d'opérateurs à utiliser lors de la recherche glou- 
tonne, une avancée significative est apportée grâce à la conjecture de Meek 
[Mee97] démontrée dans [Chi02b], Chickering montre qu'il suffit d'effec- 
tuer une recherche gloutonne en ajoutant des arcs puis une autre recherche 
gloutonne en en supprimant pour arriver à la structure optimale. Cet al- 
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Opérateur 

INSERT(X a> Xb,T) 

DELETE(X a ,Xb,H) 

Conditions 
de validité 

•N A Xb , x A U T est une clique 
• chaque chemin semi-dirigé 

X B . . . X A contient un nœud 
dans NA Xb ,x a U T 

•NA Xb ,x a \ H est une clique 

Variation 
du score 

s(X b ,NAx Bi x a UT UPqJ X a ) 

— s(X B , N Ax b ,x a UT UPûx b ) 

s(X b ,{NA Xb ,x a \T}uPq x Xa ) 
-s(X b ,{NAx B( x a \T}UPax B ) 

Effet 

X a X b devient X a — > X B 

VX t G T, 

X t - X B devient X t -> X B 

X A -*X B devient X A X B 

VXh G H, 

X B - X h devient X B — > X h 

X A - X h devient X A — > X h 


Notations: Pa x X) = Pa(X t ) \{Xj} Pa x X) = Pa(X t ) U{Xj} 

N A Xb ,x a = {X t / (X t -» X A ou X t 4 X A ) et X t -X B } 

Tab. 6.18 Exemple d'opérateurs dans l’espace des classes d'équivalence de Markov, condi- 
tion de validité et calcul de la variation du score pour chacun des opérateurs 


gorithme, GES (Greedy Equivalence Search), utilise uniquement deux opéra- 
teurs d'insertion et de suppression proposés dans [AW02], [Chi02b] ainsi 
que [Chi02a] et [CM02], La table 6.18 nous décrit les opérateurs INSERT et 
DELETE ainsi que leur condition de validité et le calcul de la variation du 
score qu'ils entraînent. 

Ces deux opérateurs servent à construire les limites d'inclusion inférieure 
V - (£) et supérieure V + (£) du CPDAG courant £. 

Définition 6.4 

Soit £ un CPDAG, la limite d'inclusion supérieure V + (£) est alors l'ensemble des 
CPDAG voisins de £ définis par : 

£ + G V + {£) ssi 3G = £ / {Ç + = {G + 1 arc} et Q + = £+} 

Définition 6.5 

Soit £ un CPDAG, la limite d'inclusion inférieure V~{£) est alors l'ensemble des 
CPDAG voisins de £ définis par : 

£- G V~{£) ssi 3Ç = £ / [Ç- = {Q - 1 arc} et = £~) 

La première étape de cet algorithme, détaillée dans la table 6.19 ci-après, 
est donc une recherche gloutonne dans la limite d'inclusion supérieure, afin 
de complexifier la structure tant que le score augmente. L'étape suivante 
(table 6.20 page 166) est une recherche gloutonne dans la limite d'inclusion 
inférieure, pour simplifier la structure maximale obtenue et converger vers 
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( Algorithme Greedy Equivalence Search (insertion d’arcs) 

• G <— Go 

• Score < oo 

• Répéter 

Score m a x ^ OO 

V(X A ,X B ) G X 2 /X a non adjacent àX B 

NNAx b ,x a ={X t / X t non adjacent àX A etX t -X B } 
NA Xb ,x a = {X t / (X t -> X A ou X t <- X A ) et X t -X B } 

VT g powerset(NNAx B ,x A ) 

Gnew i G 

Test, <— N A Xb ,x a U T est une clique 

Test 2 g3Xb p -^' X a dans G \ (NA Xb ,x a U T) 

Si Testl et - | Test2 alors 

Gnem <— G + INSERT{X A , X B , T), c'est-à-dire : 
X A X B devient X A — > X B dans Gnew 
VX t G T, X t - X B devient X t — > X B dans Gne 
DAGnew t — CPD AGtoD AG (Ç/new) 

Score ne w <— score(DAGnew) 

Si Score new > Score m ÛX alors 
DAG max — DAG ne w 
Score m ax — Score n ew 
Score 0 id g- Score 
Score <— Score m ax 

Si Score > Score 0 td alors G <— DAGtoCPAG(DAG ma x) 
Tant Que Score > Score old 


Tab. 6.1 9 Algorithme GES (insertion d'arcs) 


la structure optimale. L'exemple 6.22 page 170 illustre cette recherche pour 
quatre nœuds, en donnant les CPDAG générés à chaque étape. 

L'algorithme Greedy Equivalence Search ne s'affranchit pas totalement de 
l'espace B des DAG. En effet, les fonctions de score existantes ne travaillent 
que dans cet espace. Il faut donc y revenir à chaque itération pour cal- 
culer le score d'un des DAG de la classe d'équivalence (voir la table 6.21 
page 167). 
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^Algorithme Greedy Equivalence Search (suppression d’arcs) ^ 

Score <— Score old 

Répéter 

Score m qx ^ OO 

V(X A ,X B ) e X 2 /X a adjacent àX B 

NA Xb ,x a = {X t / (X t -» X A ou X t <- X A ) et X t -X B } 

VH e powerset(NAx B ,x A ) 

Qnew t Q 

Si NA Xb ,x a \ H est une clique alors 

Q ne w <- G + DELETE(X a ,X b ,H), c’est-à-dire : 

X A -X B (ou X A — > X B ) devient X A X B dans Q new 
VX h e H, 

X B - X h devient X B — > X h dans Q new 
X A - X h (s’il existe) devient X A — > X h dans 
DAGnew r — CPDAGtoD AG (Qnew ) 

Score new <— score(DAGnew) 

Si Score new > Score m QX alors 
DAG m ax — DAGnew 
Score m ax — Score n ew 
Score old <— Score 
Score <— Score m ax 

Si Score > Score 0 i d alors G <— DAGtoCPAG(DAG max ) 

Tant Que Score > Score 0 i d 

V J 


Tab. 6.20 Algorithme GES (suppression d'arcs) 
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Tab. 6.21 Algorithme GES, exemple d’itération dans l’espace E des CP- 
DAG 


Soit quatre noeuds X A ,X B , X c et X D . L'opérateur INSERT de l’algorithme GES nous 
donne la limite d’inclusion supérieure du graphe courant. Cette série de PDAG est trans- 
formée en DAG grâce à l’algorithme de Dor et Tarsi (voir table 6.5 page 1 37) pour pouvoir 
appliquer la fonction de score, puis en CPDAG grâce à l'algorithme de Chickering (voir 
table 6.3 page 135). 



Tab. 6.22 Exécution de l’algorithme GES pour 4 noeuds (à suivre. . . ) 
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La première itération de l’algorithme GES revient à tester les six CPDAG suivants, qui 
sont effectivement les représentants des classes d’équivalences des douze DAG qui 
possèdent un unique arc. 




Supposons que le score obtenu par le CPDAG X C -X D soit le meilleur. 

GES va appliquer une nouvelle fois l'opérateur d'insertion pour obtenir neuf autres CP- 
DAG. Ces graphes correspondent aux classes d’équivalence possibles pour les vingt 
DAGS à deux arcs que l’on peut obtenir après insertion d’un arc sur chacun des DAG 
équivalents au CPDAG précédent X C -X D : 
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Tab. 6.22 Exécution de l’algorithme GES pour 4 noeuds (à suivre. 
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Pour l’itération suivante, supposons à présent que notre meilleure structure est la struc- 
ture X C -X D -X B . L’opérateur d’ajout d’arcs nous permet de parcourir les huit CPDAG 
suivants : 





Considérons maintenant que le CPDAG issu de INSERT(X b ,X c , 0) obtient le meilleur 
score, supérieur à celui de l’itération précédente et que l’itération suivante d'ajout d’arcs 
(non détaillée ici) ne parvient pas à trouver de meilleure structure. La première phase de 
l’algorithme GES (ajout d’arcs) prend fin. 


Tab. 6.22 Exécution de l’algorithme GES pour 4 noeuds (à suivre. . . ) 
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6.2. Apprentissage de la structure 


Suit maintenant la seconde phase où nous allons chercher une meilleure structure en 
retirant des arcs. L’opérateur de suppression d’arc génère les six CPDAG suivants qui 
représentent un ensemble de douze DAG. 




Les structures indiquées en gris foncé ont déjà été évaluées lors de l’étape d’ajout 
d’arcs, le meilleur score correspondant à la première structure obtenue en faisant 
DELETE(X b ,X c , 0). Il faut alors comparer ce score avec celui des deux structures de 
droite qui n'ont pas encore été parcourues par notre algorithme pour choisir la meilleure 
structure pour cette itération, et continuer ensuite à appliquer l’opérateur DELETE tant 
que le score augmente pour obtenir la structure optimale. 


Tab. 6.22 Exécution de l’algorithme GES pour 4 noeuds 


L'algorithme Greedy Equivalence Search tire avantageusement partie des 
propriétés de l'espace E pour converger vers la structure optimale. Il ouvre 
aussi des perspectives intéressantes qui devraient rapidement voir le jour : 
pourquoi ne pas adapter GES aux données incomplètes avec le même prin- 
cipe que l'algorithme EM structurel travaillant dans B pour obtenir un EM 
structurel dans l'espace E ? 

6.2.6 Méthodes hybrides 


Afin de tirer parti des avantages respectifs des algorithmes de recherche 
d'indépendances conditionnelles et de ceux basés sur l'utilisation d'un score, 
de nombreux travaux ont mené à des méthodes hybrides. 
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Ainsi, plusieurs approches vont utiliser les informations issues d'une 
première phase de recherche d'indépendances conditionnelles pour guider 
la phase suivante, une recherche dans l'espace des DAG. Singh et Valtorta 
[SV93] ou Lamma et al. [LRS04] génèrent, grâce à cette recherche d'indé- 
pendances conditionnelles, un ordonnancement des variables qui est utilisé 
par l'algorithme K2. Wong et al. [WLL04] utilisent le même genre d'infor- 
mation pour contraindre une heuristique de parcours de l'espace des DAG 
par algorithmes génétiques. 

D'autres approches, symétriques aux précédentes, vont utiliser les avan- 
tages des méthodes à base de score pour aider les algorithmes d'appren- 
tissage de structure par recherche d'indépendance conditionnelle. Dash et 
Druzdzel [DD99] partent du fait que l'algorithme PC est sensible aux heu- 
ristiques utilisées pour ne pas parcourir tous les ensembles de conditionne- 
ment ainsi qu'au seuil du test statistique utilisé. Ils proposent alors un par- 
cours aléatoire de l'espace de ces deux paramètres (ordre permettant de li- 
miter les ensembles de conditionnement ainsi que le niveau de signification 
du test) en utilisant un score bayésien pour comparer les réseaux obtenus. 
Sur le même principe général, Dash et Druzdzel [DD03] proposent un nou- 
veau test d'indépendance conditionnelle Hybrid Independence Test se servant 
de certains avantages des approches à base de score comme l'ajout possible 
d'a priori et l'utilisation de l'algorithme EM pour prendre en compte des 
données incomplètes. 

6.2.7 Incorporation de connaissances 

Nous avons pour l'instant décrit les différentes familles de méthodes 
d'apprentissage de structure à partir de données. Ces méthodes n'utilisent 
aucune connaissance précise sur la tâche à résoudre ou de connaissances 
des experts sur la structure à trouver. 

Si l'expert fournit directement la structure du réseau bayésien, le pro- 
blème est résolu. Par contre, dans la plupart des cas, les connaissances de 
l'expert sur la structure ne sont que partielles. Cheng et al. [CG K : 02] ont 
fait une liste de ces connaissances a priori : 

CD Déclaration d'un nœud racine, c'est-à-dire sans parent, 

® Déclaration d'un nœud feuille, c'est-à-dire sans enfant, 

© Existence (ou absence) d'un arc entre deux nœuds précis, 

© Indépendance de deux nœuds conditionnellement à certains autres, 
© Déclaration d'un ordre (partiel ou complet) sur les variables. 

A cette liste, nous rajouterons les points suivants : 

© Déclaration d'un nœud cible : essentiellement pour des tâches de clas- 
sification. 
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© Existence d'une variable latente entre deux nœuds. 

Quel que soit le type de connaissance apportée par l'expert, il faut sou- 
vent utiliser des données pour trouver la structure du réseau bayésien. Les 
a priori de type 1. à 5. peuvent être facilement pris en compte par les al- 
gorithmes d'apprentissage de structure évoqués en sections 6.2.4 page 136 
et 6.2.5 page 144. Nous allons donc approfondir les points 6 et 7 : l'appren- 
tissage de structure dans le cadre de la classification, et l'apprentissage de 
structure lorsque des variables latentes sont définies explicitement. 

► Structures de réseaux bayésiens pour la classification 

Dans les tâches de classification, une variable précise correspond à la 
classe qu'il faut reconnaître à partir des autres variables (les caractéristiques). 
Plusieurs méthodes d'apprentissage vont donc proposer des structures où 
ce nœud classe aura un rôle central ([FGG97], [CG99], [CG01]). 

• Structure de Bayes naïve 

Le classifieur de Bayes naïf correspond à la structure la plus simple qui 
soit, en posant l'hypothèse que les caractéristiques Xi . . . X n _i sont 
indépendantes conditionnellement à la classe X c . Cela nous donne la 
structure type de la figure 6.2 . 

Cette structure, pourtant très simple, donne de très bons résultats 
dans de nombreuses applications [LIT92], 



FlG. 6.2 Réseau bayésien naïf 


• Structure augmentée 

Afin d'alléger l'hypothèse d'indépendance conditionnelle des carac- 
téristiques, il a été proposé d'augmenter la structure naïve en rajoutant 
des liens entre certaines caractéristiques ([KP99], [FGG97], [SGC02]). 

Parmi les différentes méthodes proposées pour augmenter le réseau 
bayésien naïf, citons TANB ( Tree Augmented Naive Bayes) qui utilise 
une structure naïve entre la classe et les caractéristiques et un arbre 
reliant toutes les caractéristiques. [Gei92] a montré que la structure 
augmentée - par un arbre - optimale s'obtenait facilement en utili- 
sant MWST ( Maximum Weight Spanning Tree) sur les caractéristiques 
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et en reliant la classe aux caractéristiques comme pour une struc- 
ture naïve. La seule différence réside dans le calcul de l'intérêt de 
connecter deux nœuds, où il faut remplacer l'information condition- 
nelle (équation 6.38 page 150) ou la différence de score (équation 6.39 
page 150) utilisées par une information mutuelle ou une différence 
de score conditionnelle à la variable classe. 



[FGG97] et [GGS97] ont montré que l'utilisation de telles structures 
donne de meilleurs résultats qu'une approche de recherche de struc- 
ture brute à base de score (c'est-à-dire ne tenant pas compte de la 
spécifité du nœud classe). 

Plusieurs extensions de TANB ont été étudiées récemment. L'arbre 
obtenu par TANB va obligatoirement relier chaque variable carac- 
téristique avec une autre de ces variables. Pour assouplir cette hy- 
pothèse, [SGC02] propose avec l'algorithme FANB ( Forest Augmented 
Naive Bayes) de ne pas rechercher le meilleur arbre, mais la meilleure 
forêt, c'est-à-dire l'ensemble optimal d'arbres disjoints sur l'ensemble 
des variables caractéristiques. Pour cela, il utilise les spécificités de 
l'algorithme de recherche de l'arbre de recouvrement maximal pro- 
posé par Kruskal (voir par exemple [Sak84, CLR94, AU98]) pour trou- 
ver ces ensembles d'arbres disjoints. 

D'autres extensions adaptent les méthodes au cas des bases de don- 
nées incomplètes. Citons par exemple [CC02] qui abordent l'appren- 
tissage de ces structures augmentées lorsque la variable classe est par- 
tiellement observée. L'algorithme MWST-EM, proposé par [LF05] et 
évoqué page 158 peut aussi être appliqué pour trouver une structure 
de type TANB ou FANB, avec l'avantage supplémentaire de pouvoir 
traiter les situations où n'importe quelle variable peut être partielle- 
ment observée (et pas uniquement la variable classe). 

• Multi-net 

Cette approche originale proposée par [GH96] et [FGG97] suppose 
que (1) les relations de causalité ou d'indépendance conditionnelles 
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entre les variables ne sont pas forcément les mêmes selon les moda- 
lités de la classe et (2) la structure représentant les relations entre les 
caractéristiques pour une modalité de la classe fixée est souvent plus 
simple que la structure représentant les relations entre toutes les va- 
riables (caractéristiques et classe). 

Au lieu de rechercher la structure optimale englobant les n variables, 
classes comprises, l'approche multi-net consiste à chercher r c struc- 
tures reliant uniquement les n — 1 caractéristiques, avec une structure 
pour chaque modalité i. de la classe (i € [1 . . . r c ]), comme illustré 
dans la figure 6.4 . 

Selon l'hypothèse (2), la plupart des approches de ce type décident 
d'utiliser des méthodes simples comme MWST ou BN-PC pour trou- 
ver chacune des structures au lieu d'algorithmes plus lourds comme 
la recherche gloutonne. 



FlG. 6.4 Approche multi-net 


• Apprentissage des modèles discriminants 
Toutes les méthodes d'apprentissage de paramètres ou de structure 
évoquées jusqu'ici maximisent la vraisemblance sur toutes les va- 
riables, la variable classe ne tenant pas une place particulière lors 
de l'apprentissage. En prenant l'exemple de la régression logistique, 
Ng et Jordan [NJ02] montrent que cet apprentissage génératif n'est 
pas le plus adapté dans le cas particulier de la classification, et qu'il 
est préférable d'utiliser un apprentissage de type discriminant. Pour 
cela, la fonction objectif n'est plus la vraisemblance de toutes les va- 
riables, mais la vraisemblance de la variable classe conditionnelle- 
ment à toutes les autres, fonction permettant de mesurer directement 
le pouvoir discriminant du réseau bayésien. 

Greiner et al. [GSSZ05] proposent ainsi un algorithme d'apprentis- 
sage des paramètres d'un réseau bayésien maximisant la vraisemblance 
conditionnelle (ELR). Il faut noter que cet apprentissage n'est plus aussi 
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simple que dans le cas génératif. Dans la plupart des cas classiques, 
la maximisation de la vraisemblance revient à estimer les statistiques 
essentielles de l'échantillon (fréquence d'apparition d'un événement 
dans le cas discret, moyenne et variance empiriques dans le cas gaus- 
sien). La maximisation de la vraisemblance conditionnelle n'est pas 
si simple et passe par une étape d'optimisation itérative, comme la 
descente de gradient proposée dans l'algorithme ELR. 

L'apprentissage de la structure d'un modèle discriminant est donc 
encore plus problématique. En effet, les méthodes d'apprentissage 
de structure évoquées précédemment sont des méthodes itératives 
conjuguant une étape de maximisation dans l'espace des graphes et 
une étape de maximisation dans l'espace des paramètres. Remplacer 
la vraisemblance par la vraisemblance conditionnelle amènerait donc 
à ajouter une étape d'optimisation itérative (celle concernant les para- 
mètres) dans le parcours itératif de l'espace des graphes, ce qui rend 
la méthode particulièrement coûteuse en temps de calcul. Grossman 
et Domingos [GD04] proposent alors de garder l'étape classique d'es- 
timation des paramètres par maximisation de la vraisemblance, mais 
d'utiliser un score prenant en compte le pouvoir discriminant du ré- 
seau bayésien pour le parcours dans l'espace des graphes. Le score 
proposé s'inspire du score BIC, en utilisant cette fois-ci la vraisem- 
blance conditionnelle à la place de la vraisemblance classique. 


► Structures de réseaux bayésiens avec variables latentes 

La connaissance apportée par un expert peut aussi se traduire par la 
création de variables latentes entre deux ou plusieurs nœuds, remettant en 
cause l'hypothèse de suffisance causale. 

C'est le cas par exemple pour des problèmes de classification non su- 
pervisée où la classe n'est jamais mesurée. Il est donc possible de proposer 
l'équivalent d'un réseau bayésien naïf, le modèle latent, mais où la classe 
(représentée en gris dans la figure 6.5 ) ne fait pas partie des variables me- 
surées. 
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Les modèles hiérarchiques latents illustrés par la figure 6.6 ont été 
proposés par [BT98] pour la visualisation de données et [Zha02] pour la 
classification non supervisée. Ils généralisent la structure de modèle la- 
tent en faisant le parallèle avec les arbres phylogénétiques utilisés en bio- 
informatique ou les méthodes de classification hiérarchique. 



FiG. 6.6 Modèle latent hiérarchique 


L'apprentissage des paramètres pour le modèle latent ou le modèle hié- 
rarchique latent s'appuie fortement sur l'algorithme EM. Cheeseman et al. 
ont ainsi proposé AUTOCLASS [CS96], un algorithme bayésien de classifi- 
cation non supervisée utilisant l'algorithme EM. Attias et al. [Att99] ont 
utilisé les approches variationnelles popularisées par Jordan et al. [JGJS98] 
pour généraliser l'algorithme EM pour les modèles latents. 

Pena et al. [PLLOO] simplifient la procédure de recherche de l'algorithme 
EM structurel pour rechercher une structure latente augmentée, tout en 
proposant une variante plus rapide de l'algorithme EM. 

Dans ce type de modèles, la détermination de la cardinalité des va- 
riables latentes est une tâche difficile, que nous décrirons plus en détail 
dans la section 6.2.8 ci-après. 

► Autres structures particulières 

La modélisation de systèmes complexes passe souvent par la détermi- 
nation de régularités dans le modèle. La connaissance de ces régularités 
permet alors de restreindre l'identification du modèle à celle de ses compo- 
sants qui peuvent se répéter plusieurs fois. 

Ce type de modélisation se retrouve par exemple dans le formalisme 
des réseaux bayésiens orientés objets (OOBN [BWOO]). Ces OOBN introduisent 
la notion d'objet dans un réseau bayésien, objet qui pourra se retrouver 
plusieurs fois dans le modèle, puis de relations entre les objets. La déter- 
mination de la structure d'un OOBN se traduit donc par la recherche de la 
structure interne de chaque objet et de la structure représentant les interac- 
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tions entre les objets [BLN01]. 

Le formalisme des réseaux bayésiens temporels [Mur02], et plus particu- 
lièrement celui des 2TBN ( Tzvo-slice Temporal Bayesian Network) reprend le 
même raisonnement. Dans ces modèles, les relations entre les variables sont 
décomposées en deux catégories. La première concerne les relations intra- 
slice entre les variables à un instant donné t, supposant que ces relations 
sont constantes au cours du temps. 2 L'autre catégorie de relation mter-slice 
décrit les dépendances entre les variables à un instant t et celles à un ins- 
tant t + 1 . Comme pour le cas des modèles de Markov cachés, ce genre 
de décomposition suppose que la loi jointe sur toutes les variables dépend 
seulement des probabilités conditionnelles intra-slices et inter-slices. La dé- 
termination de la structure d'un 2TBN peut donc elle aussi se simplifier 
en la recherche de ces deux catégories de relations, comme proposé par 
[FMR98]. 

6.2.8 Découverte de variables latentes 

Les algorithmes présentés dans les sections 6.2.4 page 136, 6.2.5 page 144 
et 6.2.6 page 170 font l'hypothèse de suffisance causale. Or, cette hypothèse 
est souvent fausse pour des problèmes réels où toutes les variables ne sont 
pas forcément disponibles, et où par exemple, certaines variables peuvent 
être reliées par une cause commune non mesurée. 

Conscients de cette situation, des travaux tentent d'étendre la plupart 
des méthodes existantes à la découverte de variables latentes. 


► Recherche d'indépendances conditionnelles 

Les auteurs respectifs de PC et IC (voir page 139) ont utilisé la notion de 
causalité, dont nous parlons plus en détail dans la prochaine section, pour 
découvrir la présence de variables latentes à partir de la recherche d'indé- 
pendances conditionnelles. Pour cela, ils ont déterminé plusieurs genres de 
causalité (notations issues de [SGS00]) : 

• Cause véritable (Xa — > Xb). 

• Cause artificielle (Xa <-> Xb) : Xa est vu comme la cause de Xb et 
réciproquement. Ces deux variables sont en réalité les conséquences 
d'une cause commune H non mesurée (Xa <— H — > Xb). 

• Cause potentielle (X a -o Xb) : Xa peut être soit la cause de Xb (Xa — > 
Xb) soit la conséquence avec Xb d'une variable latente (Xa Xb). 

2 Pour cette raison, la terminologie réseaux bayésiens temporels est plus appropriée que 
celle de réseaux bayésiens dynamiques 
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^Algorithme IC* 

• Construction d’un graphe non orienté 

Soit G le graphe ne reliant aucun des noeuds X 

V{X A ,X B }e A- 2 

Recherche de Sepset(X A ,X B ) tel que Xa-LXb I Sepset(X A ,X B ) 
si Sepset(X A , X B ) = 0 alors ajout de l'arête X A o-o X B dans G 

• Recherche des V-structures 

V{X A> X B , X c } e X 3 / X A et X B non adjacents et X A *— *Xc *— *X B , 
si X c ^ SepSet(X A , X B ) alors on crée une V-structure : 

X A * — > Xc 4 — *X B 

• Ajout récursif de — > 

Répéter 

V{X Al X B }e A" 2 , 

si X A *— *X B et X A — > X B , alors ajout d’une flèche à X B : 

X A * — > X B 

si X A et X B non adjacents, VX C tel que X A * — > X c et X C *-*X B 
alors X c — > X B 

Tant qu'il est possible d’orienter des arêtes 

V 

X A ^X B 

X A —o X B ; X A — > X B ou X A 4— > X B 

X A 4-4 X B : X A 4 — H — > X B 

X A o—o X B ! X A — > X B , X A 4 — Xb ou X A 4— > Xb 

ensemble de tous les noeuds 
X A — X B OU X A — > X B OU X b — o X A 
il existe un chemin dirigé reliant X A et X B 


Notations : Cause véritable 
Cause potentielle 
Cause artificielle 
Cause indéterminée 

X 

X A — *X B 
X A •w X B 


V 


J 


Tab. 6.23 Algorithme IC* 


• Cause indéterminée (Xa o-o Xb) : il est impossible de savoir si Xa 
cause Xb ou l'inverse, ou si elles sont les conséquences d'une variable 
latente (Xa Xb). 

La prise en compte de ces types de causalité dans les algorithmes pré- 
cédents a donné l'algorithme FCI ( Fast Causal Inferencé) pour Spirtes et al. 
[SMR95, SGSOO] et l'algorithme IC * pour Pearl et al. [PeaOO] (détaillé dans 
la table 6.23). Comme pour PC et IC, la différence principale entre ces deux 
méthodes réside dans la construction du graphe non orienté de départ : 
suppression d'arêtes à partir d'un graphe complètement connecté pour 
FCI et ajout d'arêtes à partir d'un graphe vide pour IC*. La détermination 
du type de causalité s'effectue d'abord lors de l'étape de détection de V- 
structures où certains arcs sont orientés, puis lors de l'étape suivante où 
des relations de causalité ambiguës sont levées. 

Récemment, J. Zhang [Zha06] a montré que les règles d'orientations 
proposées dans l'algorithme FCI ne sont pas complètes, élaborant une ver- 
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sion augmentée et complète de l'algorithme. 

► Algorithmes basés sur un score 

La découverte de variables latentes et le réglage de la cardinalité de 
ces variables sont souvent incorporés au processus d'apprentissage, et plus 
précisément aux méthodes de type recherche gloutonne. 

Récemment, N. Zhang [Zha03] a adapté l'algorithme EM structurel pour 
les modèles hiérarchiques latents. Cette adaptation tente d'optimiser la taille 
des variables latentes pendant l'apprentissage simultané de la structure et 
des paramètres, en suggérant d'autres opérateurs tels que l'ajout ou la sup- 
pression d'une variable latente, ou l'augmentation de la cardinalité d'une 
variable latente. 

Martin et Vanlehn [MV95] suggèrent une heuristique permettant de ne 
pas ajouter une variable latente à n'importe quel moment lors de la re- 
cherche gloutonne précédente, mais dans des situations bien précises. En 
effet, ils considèrent que l'apparition d'une clique, c'est-à-dire un groupe de 
variables complètement connectées, et donc mutuellement dépendantes, 
peut alors n'être qu'un optimum local dû au fait qu'elles possèdent en 
commun une unique cause cachée. Leur opérateur d'ajout d'une variable 
latente introduit donc un nouveau nœud Ht dans le graphe, en remplaçant 
tous les arcs de la clique par des arcs partants de Ht. 

La détermination de la cardinalité des variables latentes peut aussi être 
séparée du processus d'apprentissage pour rentrer dans le cadre de la sélec- 
tion de modèles. Ainsi, plusieurs modèles peuvent être appris, avec diffé- 
rentes configurations de ces cardinalités. Le meilleur modèle, au sens d'un 
critère de score comme le critère BIC [FR98, ZNJ04], permettra ensuite de 
sélectionner les meilleures cardinalités des variables latentes. Malheureu- 
sement, l'utilisation de ces critères n'est pas toujours appropriée pour des 
modèles latents. Comment calculer par exemple la dimension effective du 
réseau bayésien Dim(£>) lorsqu'il y a des variables latentes? Des correc- 
tions aux critères classiques ont été proposées par [KZ02] pour les modèles 
hiérarchiques latents. 

6.2.9 Cas particulier des réseaux bayésiens causaux 

La notion de causalité est souvent associée au formalisme des réseaux 
bayésiens, parfois même à tort puisque le graphe complètement orienté 
obtenu à partir d'un algorithme d'apprentissage de structure n'est pas né- 
cessairement causal. 

La causalité est un champ d'étude très large, qui a motivé de nombreux 
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travaux, de la biologie [ShiOO] à l'informatique en passant par la philoso- 
phie [Wil05]. 

Après avoir défini ce qu'est un réseau bayésien causal, et la notion d'in- 
tervention, nous nous intéresserons à la détermination de la structure de 
ces réseaux lorsque toutes les variables sont connues, puis dans un cas plus 
général. 

► Définition 

Un réseau bayésien causal est un réseau bayésien pour lequel tous les arcs 
représentent des relations de causalité. 

Leurs premiers avantages sont leur lisibilité et leur facilité d'interpréta- 
tion pour les utilisateurs. 

Un autre avantage des réseaux bayésiens causaux réside dans la possi- 
bilité de pouvoir estimer l'influence sur n'importe quelle variable du graphe 
d'une intervention externe sur une de ces variables. Cette notion impor- 
tante d 'intervention (ou manipulation) a amené Pearl [PeaOO] à distinguer le 
concept de mesure d'une variable (X A = a) à celle de manipulation de la 
variable Xa grâce à l 'opérateur do-calculus. ûo(Xa = a) signifie ainsi qu'une 
intervention externe a forcé la variable Xa à prendre la valeur a. 

Le principe de probabilité conditionnelle P(Xa I X B ), symétrique grâce 
au théorème de Bayes, ne permet pas de représenter les relations, assymé- 
triques, de causalité. L'usage de cet opérateur répond à ce problème. Si Xa 
est la cause de Xb, nous obtenons : 

P(X B = b | do(X A = a)) = P(X B = b|X A = a) 

P(X A = a | do(X B = b)) = P(X A = a) 

Ces considérations ont débouché sur des travaux très intéressants sur 
l'idée d'identifiabilité, c'est-à-dire dans quelles conditions il est possible de 
calculer P(Xt | do(Xj)), Xiet Xj étant n'importe quel nœud du graphe, et sur 
l'inférence causale, c'est-à-dire fournir des algorithmes capables de réaliser 
efficacement ce calcul lorsqu'il est possible. 

► Apprentissage sans variables latentes 

Lorsqu'un expert détermine lui-même la structure d'un réseau bayé- 
sien, il utilise souvent implicitement la notion de causalité. A l'opposé, 
l'apprentissage du graphe à partir de données se fait dans un cadre plus gé- 
néral que celui des réseaux bayésiens causaux, cadre dans lequel plusieurs 
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FlG. 6.7 Aprentissage de la structure d'un réseau bayésien causal à partir de données 
d'observation et d’expérimentation : l'algorithme MyCaDo (MY CAusal Dis- 
cOvery) [MLM06], 


graphes seront équivalents, mais où un seul capturera éventuellement les 
relations de causalité du problème. 

La découverte de réseaux bayésiens complètement causaux à partir de don- 
nées est une question qui a été abordée plus récemment. Les avancées sur 
le sujet s'accordent sur le fait qu'il est impossible de travailler uniquement 
à partir de données d'observations. Les plans d'expériences, c'est-à-dire la 
façon dont les données ont été obtenues, sont des informations essentielles 
pour capturer la notion de causalité puisqu'ils définissent explicitement sur 
quelle(s) variable(s) a eu lieu l'intervention. 

Les travaux théoriques de Eberhardt et al. [EGS05] montrent que le nombre 
maximal d'interventions à effectuer sur le système est de N — 1 , où N est le 
nombre de variables. 

Deux types d'approches ont été élaborés. Les travaux de Cooper et Yo 
[CY99], Tong et Koller [TK01] ou Murphy [MW01] se placent dans le cadre 
de l'apprentissage actif, où les seules données seront celles obtenues par 
expérimentation, et où le modèle va être construit au fur et à mesure de ces 
expériences. 

Nos travaux [MLM06], avec l'algorithme MyCaDo ((MY CAusal Dis- 
cOvery)), partent d'une hypothèse différente. Nous supposons qu'un en- 
semble de données d'observation est déjà disponible, et a permis d'obtenir 
le représentant de la classe d'équivalence de Markov. Il reste donc à finir 
d'orienter cette structure à partir d'expérimentations sur le système. Cet al- 
gorithme, itératif, est résumé dans la figure 6.7 . Il propose à l'utilisateur 
l'expérience à réaliser qui pourrait lui permettre d'orienter potentiellement 
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le plus d'arêtes. Une fois que les résultats de cette expérience sont pris en 
compte dans le graphe, il faut réévaluer la situation pour choisir l'expé- 
rience suivante. Cette approche permet aussi de tenir compte des coûts 
éventuels d'expérimentation ou d'observation de chaque variable. 

► Apprentissage avec variables latentes 

Un modèle causal semi-markovien (SMCM) [PeaOO] est un graphe sans cir- 
cuit avec à la fois des arcs dirigés et bidirigés. Les nœuds du graphe sont 
associés aux variables observables, tandis que les arcs bidirigés représente- 
ront implicitement des variables latentes. 

Un avantage de ces modèles est cette représentation implicite des va- 
riables latentes dans le graphe. Contrairement aux approches à base de 
score abordées dans la section précédente, il n'est plus nécessaire de dé- 
clarer explicitement les variables latentes, ni de trouver la cardinalité de 
ces variables. 

Spirtes et al. [SMR95, SGSOO] et Tian et Pearl [PeaOO, TP02, TP03] ont 
conçu des algorithmes efficaces permettant de répondre aux questions d'iden- 
tifiabilité et d'inférence dans ces modèles. 

Concernant l'apprentissage de réseaux bayésiens causaux avec variables 
latentes, les chercheurs se sont tournés vers un autre formalisme, celui des 
graphes ancestraux maximaux (MAG), développés initialement par Richard- 
son et Spirtes [RS02], 

Ces travaux consistent à caractériser les classes d'équivalences des gra- 
phes ancestraux maximaux et à construire des opérateurs qui permettent 
de générer des graphes équivalents [AR02, ARSZ05, ZS05a, ZS05b], La fi- 
nalité de ces études est d'arriver à un algorithme s'inspirant de GES, dé- 
crit page 161, mais travaillant dans l'espace des représentants des classes 
d'équivalence des MAG au lieu des DAG. 

Malheureusement, comme pour l'algorithme GES, ces travaux ne per- 
mettent toujours pas de déterminer une structure qui soit complètement 
causale. De plus, il n'existe pas à notre connaissance d'algorithme d'in- 
férence probabiliste ou causal travaillant à partir des graphes ancestraux 
maximaux. 

Ces observations sont à l'origine de travaux très récents [MMLM06, 
MLM07, MML07] qui suggèrent une approche mixte s'inspirant des prin- 
cipes décrits pour l'algorithme MyCaDo dans la section précédente. 

La finalité de cette approche est d'utiliser des données d'observations 
et les algorithmes d'apprentissage de structure d'un MAG (ou du représen- 
tant de sa classe d'équivalence). Ensuite, l'idée est de mettre en œuvre une 
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série d'expérimentations pour finir d'orienter « causalement » ce MAC, et 
surtout le transformer en un SMCM dans lequel il sera possible d'effectuer 
à la fois de l'inférence probabiliste et causale. 
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Chapitre 7 


Mise en œuvre des réseaux 
bayésiens 


hj ous abordons maintenant la mise en œuvre des réseaux bayésiens 
dans des applications pratiques. Dans ce chapitre, nous présentons essen- 
tiellement des aspects méthodologiques, en essayant de répondre aux trois 
questions suivantes : pourquoi, où (dans quelles applications) et comment 
utiliser des réseaux bayésiens ? 

Les chapitres suivants seront consacrés, d'une part à une revue géné- 
rale d'applications dans le monde, et d'autre part à quatre études de cas 
détaillées. 


7.1 Pourquoi utiliser des réseaux bayésiens ? 


Selon le type d'application, l'utilisation pratique d'un réseau bayésien 
peut être envisagée au même titre que celle d'autres modèles : réseau de 
neurones, système expert, arbre de décision, modèle d'analyse de données 
(régression linéaire), arbre de défaillances, modèle logique. Naturellement, 
le choix de la méthode fait intervenir différents critères, comme la facilité, le 
coût et le délai de mise en œuvre d'une solution. En dehors de toute consi- 
dération théorique, les aspects suivants des réseaux bayésiens les rendent. 
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dans de nombreux cas, préférables à d'autres modèles : 

® Acquisition des connaissances. La possibilité de rassembler et de fu- 
sionner des connaissances de diverses natures dans un même mo- 
dèle : retour d'expérience (données historiques ou empiriques), ex- 
pertise (exprimée sous forme de règles logiques, d'équations, de sta- 
tistiques ou de probabilités subjectives), observations. Dans le monde 
industriel, par exemple, chacune de ces sources d'information, quoique 
présente, est souvent insuffisante individuellement pour fournir une 
représentation précise et réaliste du système analysé. 

© Représentation des connaissances. La représentation graphique d'un 
réseau bayésien est explicite, intuitive et compréhensible par un non- 
spécialiste, ce qui facilite à la fois la validation du modèle, ses évolu- 
tions éventuelles et surtout son utilisation. Typiquement, un décideur 
est beaucoup plus enclin à s'appuyer sur un modèle dont il comprend 
le fonctionnement qu'à faire confiance à une boîte noire. 

© Utilisation des connaissances. Un réseau bayésien est polyvalent : on 
peut se servir du même modèle pour évaluer, prévoir, diagnostiquer, 
ou optimiser des décisions, ce qui contribue à rentabiliser l'effort de 
construction du réseau bayésien. 

© Qualité de l'offre en matière de logiciels. Il existe aujourd'hui de 
nombreux logiciels pour saisir et traiter des réseaux bayésiens. Ces 
outils présentent des fonctionnalités plus ou moins évoluées : ap- 
prentissage des probabilités, apprentissage de la structure du réseau 
bayésien, possibilité d'intégrer des variables continues, des variables 
d'utilité et de décision, etc. 

Nous allons à présent étudier plus en détail ces différents aspects de 
l'utilisation de réseaux bayésiens. 

7.1.1 Acquisition des connaissances 
► Un recueil d'expertise facilité 

Comme nous l'avons vu dans le chapitre 1 page 3, la représentation 
des connaissances utilisées dans les réseaux bayésiens est la plus intui- 
tive possible : elle consiste simplement à relier des causes et des effets par 
des flèches. Pratiquement toute représentation graphique d'un domaine de 
connaissances peut être présentée sous cette forme. 

De nombreuses expériences montrent qu'il est souvent plus facile pour 
un expert de formaliser ses connaissances sous forme de graphe causal que 
sous forme de système à base de règles, en particulier parce que la formula- 
tion de règles sous la forme SI... ALORS est très contraignante, et peut être 
facilement mise en défaut. 
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Certains auteurs considèrent qu'il existe une différence de nature entre 
les deux processus d'acquisition de connaissances. Lorsqu'on essaie de mettre 
au point un système expert, par exemple pour une application de diagnos- 
tic, l'expert doit décrire le processus de raisonnement qui le conduit de 
ses observations à une conclusion. En revanche, un modèle fondé sur un 
graphe causal décrit la perception de l'expert du fonctionnement du sys- 
tème. Effectuer un diagnostic n'est alors qu'une résultante de cette modéli- 
sation. 

► Un ensemble complet de méthodes d'apprentissage 

Comme nous l'avons abordé dans la première partie, et détaillé dans la 
partie théorique, les algorithmes actuels permettent d'envisager l'appren- 
tissage de façon très complète : 

• En l'absence totale de connaissances, on peut rechercher à la fois la 
structure du réseau la plus adaptée, c'est-à-dire les relations de dé- 
pendance et d'indépendance entre les différentes variables, et les pa- 
ramètres, ou probabilités, c'est-à-dire la quantification de ces rela- 
tions. 

• Si l'on dispose de connaissances a priori sur la structure des causa- 
lités, et d'une base d'exemples représentative, la détermination des 
matrices de probabilités conditionnelles, qui sont les paramètres du 
réseau, peut être effectuée par simple calcul de fréquences, par dé- 
termination du maximum de vraisemblance, ou par des méthodes bayé- 
siennes. 

Ces méthodes peuvent être étendues dans le cadre de bases de données 
incomplètes. Dans l'optique de rechercher un compromis entre apprentis- 
sage et généralisation, il est également possible d'effectuer des apprentis- 
sages en contraignant la structure du réseau. 

► Un apprentissage incrémental 

Le principe général de l'apprentissage dans les réseaux bayésiens est 
décrit par la formule générale : 

APosteriori oc Vraisemblance x APriori 

Cette formule, que nous avons établie dans la partie théorique, condi- 
tionne la modification de la connaissance contenue dans le réseau par l'ac- 
quisition de nouveaux exemples. Elle s'interprète en disant que la connais- 
sance contenue a priori, ou à un instant quelconque, dans le réseau, est 
transformée a posteriori en fonction de la vraisemblance de l'observation 
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des exemples étudiés selon la connaissance initiale. Autrement dit, plus les 
exemples observés s'écartent de la connaissance contenue dans le réseau, 
plus il faut modifier celle-ci. 


A priori 


Age (Profession) 


(^Conso^)/ 


(Résiliation) 


A posteriori 


Age 

Profession 

Conso 

Résiliation 









35 CS ELEVEE OUI 



Vraisemblance 


FlG. 7.1 Un exemple d'apprentissage incrémental (data mining) 


Théoriquement, cette formule, qui n'est autre que la formule de Bayes 
appliquée à la connaissance, est valable aussi bien pour l'apprentissage de 
paramètres que pour l'apprentissage de structure. Aucune des techniques 
concurrentes, ni les réseaux neuronaux, ni les arbres de décision, ne per- 
met de prendre en compte ce problème de la mise à jour des modèles 
de connaissance de façon aussi naturelle, même si aujourd'hui sa mise en 
œuvre dans les réseaux bayésiens n'est possible techniquement que dans 
certains cas particuliers. 

Nous pensons que la capacité d'apprentissage incrémental est essen- 
tielle, car elle autorise l'évolution des modèles. Toute démarche de modé- 
lisation qui ne concerne pas les sciences de la nature doit intégrer les évo- 
lutions de l'environnement modélisé, et donc faire dépendre le modèle du 
temps. L'apprentissage incrémental est une réponse possible à ce problème. 
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Sur un problème d’autorisation 
de crédit, un réseau neuronal est 
entraîné à associer certaines ca- 
ractéristiques à l’occurrence d’un 
incident de remboursement. Le 
réseau est entraîné à répondre 0 
ou 1, (« oui » ou « non »), et ce 
n’est qu’a posteriori qu’on peut in- 
terpréter une réponse intermédiaire 
comme une probabilité. 
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FlG. 7.2 Scoring et probabilités 


7.1.2 Représentation des connaissances 
► Un formalisme unificateur 

La plupart des applications qui relèvent des réseaux bayésiens sont des 
applications d'aide à la décision. Par nature, ces applications intègrent un 
certain degré d'incertitude, qui est très bien pris en compte par le forma- 
lisme probabiliste des réseaux bayésiens. 

Par exemple, les applications de data mining sont en général construites 
sur le schéma suivant. On utilise une base de données pour mettre au point 
un modèle prédictif. Par définition, une prévision comporte une part d'in- 
certitude. Or la décision, elle, doit souvent être binaire : dans une applica- 
tion de scoring, on doit par exemple accorder ou refuser le crédit. La fa- 
çon la plus naturelle d'interpréter un score est donc une probabilité (dans 
l'exemple du scoring, une probabilité de défaillance). 

Les techniques disponibles pour traiter ce genre de problème (modèles 
de régression, réseaux de neurones, arbres de décision) ne sont pas cons- 
truites sur un formalisme de probabilités. C'est a posteriori qu'on attribue 
en général une interprétation en termes de probabilités de la prévision d'un 
réseau neuronal ou d'un arbre de décision. 

( 191 ) 
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Les réseaux bayésiens ne sont qu'une représentation d'une distribution 
de probabilités. C'est une telle distribution que l'on représente à partir de 
connaissances explicites ou qu'on approche à partir d'une base de données, 
et c'est à partir de la distribution approchée que l'on effectue des inférences. 
Toute prévision issue d'un réseau bayésien est donc par construction une 
probabilité. 

De plus, les réseaux bayésiens permettent de considérer dans un même 
formalisme la représentation de modèles de causalités et les statistiques 
multivariées. Il en est de même des techniques les plus utilisées pour le 
data mining comme les arbres de décision ou les réseaux de neurones, qui 
peuvent également être représentés au sein de ce formalisme. 


► Une représentation des connaissances lisible 

Les deux propriétés fondamentales des réseaux bayésiens sont, d'abord, 
d'être des graphes orientés, c'est-à-dire de représenter des causalités et non 
des simples corrélations, et, ensuite, de garantir une correspondance entre 
la distribution de probabilité sous-jacente et le graphe associé. 

D'après le théorème d'indépendance graphique, que nous avons dé- 
montré dans la partie précédente, les relations de causalité et d'indépen- 
dance qui peuvent être lues sur le graphe sont également vraies dans la 
distribution sous-jacente. 

Considérons le cas d'une application de data mining, où Ton cherche à 
comprendre les interrelations entre des variables contenues dans une base 
de données de clients, par exemple. Si Ton se trouve dans le cas où le ré- 
seau est entièrement mis au point à partir des données (cas de l'apprentis- 
sage de la structure et des paramètres), cela signifie que Ton va disposer 
d'une visualisation graphique de ces interrelations. Avant même d'utiliser 
ce réseau pour effectuer des inférences, on va disposer d'une visualisation 
de la connaissance, directement lisible et interprétable par des experts du 
domaine. 


7.1.3 Utilisation de connaissances 
► Une gamme de requêtes très complète 

L'utilisation première d'un réseau bayésien est le calcul de la probabi- 
lité d'une hypothèse connaissant certaines observations. C'est sur cette re- 
quête élémentaire que nous avons abordé les calculs dans le chapitre 1. Ce- 
pendant, les possibilités offertes par les algorithmes d'inférence permettent 
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d'envisager une gamme de requêtes très complète, qui peut être extrême- 
ment intéressante dans certains types d'applications. 

Tout d'abord, il n'y a aucune réelle contrainte sur les informations né- 
cessaires pour être en mesure de calculer la probabilité d'un fait : on peut 
connaître exactement la valeur d'une variable, savoir qu'elle est égale à 
Tune ou l'autre de deux valeurs, ou encore savoir avec certitude qu'une de 
ses valeurs possibles est exclue. Dans tous les cas, l'inférence est possible, 
et la nouvelle information permet de raffiner les conclusions. 

Il n'y a pas d'entrées ni de sorties dans un réseau bayésien (ou de va- 
riables indépendantes et dépendantes). Le réseau peut donc être utilisé 
pour déterminer la valeur la plus probable d'un nœud en fonction d'in- 
formations données (prévoir, ou sens entrées vers sorties), mais également 
pour connaître la cause la plus probable d'une information donnée (expli- 
quer, ou sens sorties vers entrées). En termes d'inférences, cette dernière 
requête s'appelle explication la plus probable et revient, l'état de certaines 
variables étant observé, à rechercher l'état des autres variables pour lequel 
ce qui a été observé était le plus probable. Parmi les autres requêtes impor- 
tantes, l'analyse de sensibilité à une information mesure comment la proba- 
bilité d'une hypothèse s'accroît quand on a fait une observation. Certaines 
observations peuvent ainsi être considérées comme inutiles, suffisantes, ou 
cruciales, par rapport à une hypothèse donnée. 

Le mécanisme de propagation peut être également utilisé pour déter- 
miner l'action la plus appropriée à effectuer, ou l'information la plus per- 
tinente à rechercher. Considérons par exemple un problème de diagnostic, 
dans lequel manquent plusieurs des données qui permettraient de conclure. 
Le mécanisme de propagation dans un réseau bayésien permet de connaître 
la donnée dont la connaissance apporterait le maximum d'informations. 
Dans le cas où la recherche de chaque donnée a un coût, il est possible de 
rechercher la solution optimale en tenant compte de ce coût. De plus, il 
est possible de chercher également une séquence optimale d'actions ou de 
requêtes. 

► Optimisation d'une fonction d'utilité 

Imaginons un problème de classification, par exemple un problème de 
détection de fraudes sur des cartes bancaires, ou dans l'utilisation de ser- 
vices de télécommunications. Rechercher le système qui donne, avec la 
meilleure fiabilité possible, la probabilité de fraude n'est peut-être pas l'ob- 
jectif réel de ce type d'application. En effet, ce qu'on cherche ici à optimiser 
est une utilité économique. Sachant que les fausses alarmes aussi bien que 
les fraudes manquées ont un coût, l'objectif est bien de minimiser le coût 
global. Une version spécifique des réseaux bayésiens, appelée diagramme 
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(^Jumeur^) 



C^éxâmèn^ 


Dans un problème de diagnostic, 
une information (ici le fait que 
le patient est fumeur) peut être 
insuffisante pour lever l’incertitude 
sur la présence d’une certaine 
affection. La recherche de l’action 
la plus appropriée permet de dé- 
terminer quelle est la donnée qui 
apporterait le plus d’information (ici, 
accéder aux antécédents familiaux 
du patient, ou effectuer un examen 
complémentaire). 


FlG. 7.3 Requête élaborée dans un réseau bayésien 


d'influences, permet de les adapter à ce type de problème. Dans les dia- 
grammes d'influence, on ajoute aux nœuds qui représentent des variables, 
deux autres types de nœuds : 

• les nœuds de décision, figurés par des carrés ; 

• un nœud d'utilité, figuré par un losange. 

Le graphe ci-dessus représente un diagramme d'influence pour un pro- 
blème de détection de fraude sur une carte bancaire. Les variables repré- 
sentées sont les suivantes : 

• La variable F est binaire et représente le fait qu'il y a ou non fraude. 

• La variable B représente le résultat d'une vérification effectuée sur 
une base de données. Cette variable a trois modalités : le contrôle est 
négatif, positif, ou non effectué. 

• La variable P a également trois modalités, et représente le résultat 
d'un contrôle d'identité du porteur. 

• Le nœud de décision D représente la décision d'effectuer les contrôles 
complémentaires B et P. Ce nœud a donc également trois modalités : 
n'effectuer aucun test, effectuer le test B, ou effectuer les deux tests B 
et P. 

• Le nœud de décision A représente la décision d'autoriser la transac- 
tion, et est donc binaire. 

• Le nœud d'utilité V est une fonction de l'ensemble des variables pré- 
cédentes, représentant le coût de la situation. 

En outre, on suppose connus le montant de la transaction et le coût de 
chaque contrôle, et les tables de probabilités conditionnelles reliant les va- 
riables entre elles. L'objectif est de prendre les bonnes décisions D et A ; 
autrement dit, de prendre les décisions qui minimisent l'espérance mathé- 
matique de V. 


(HD 
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FlG. 7.4 Un diagramme d'influence pour la fraude sur carte bancaire 


7.1.4 Limites des réseaux bayésiens 
► Un recul encore insuffisant pour l'apprentissage 

Dans la mesure où elle s'est surtout développée dans le cadre des sys- 
tèmes experts, la technique des réseaux bayésiens n'a pas immédiatement 
intégré l'ensemble de la problématique de l'apprentissage, comme cela avait 
été le cas des réseaux neuronaux. Aujourd'hui, l'essentiel de la littérature 
sur l'apprentissage avec des réseaux bayésiens ignore le problème de la 
capacité de généralisation d'un modèle, et des précautions que cela im- 
plique au moment de la construction du modèle. La prise en compte de ce 
problème peut s'effectuer par le choix du critère de recherche ou de dis- 
tance des distributions de probabilité. En effet, comme on l'a vu dans la 
partie précédente, l'apprentissage de réseaux bayésiens revient à recher- 
cher parmi un ensemble de distributions, celle la plus proche possible, en 
un certain sens, de la distribution représentée par les données. En limitant 
l'ensemble de recherche, on peut éviter le problème de surapprentissage, 
qui revient dans ce cas à calquer exactement la distribution représentée par 
les exemples. 


► Utilisation des probabilités 

L'utilisation des graphes de causalités est, on l'a dit, une approche très 
intuitive. Nous avons montré que l'utilisation des probabilités pour rendre 
ces modèles quantitatifs était justifiée. Il reste cependant que la notion de 
probabilité, est, au contraire, assez peu intuitive. Il est en effet assez fa- 
cile de construire des paradoxes fondés sur des raisonnements probabi- 
listes. Les modèles déterministes, formulés en termes d'entrées et de sor- 
ties, comme les modèles de régression, les réseaux de neurones, ou les 
arbres de décision, même s'ils peuvent être réinterprétés dans le cadre d'un 
formalisme probabiliste, restent d'un abord plus facile. 
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7.1. Pourquoi utiliser des réseaux bayésiens ? 

► Lisibilité des graphes 


En effet, même si la connaissance manipulée dans les réseaux bayésiens, 
ou extraites des données par les algorithmes d'apprentissage associés est 
lisible puisque représentée sous forme de graphes, elle reste moins lisible 
que celle représentée par un arbre de décision, par exemple, surtout si ce 
graphe présente un grand nombre de nœuds. Notons aussi que l'informa- 
tion représentée par le graphe est la structure des causalités. Les probabili- 
tés ne sont pas représentables, et on n'a donc pas idée, à la simple lecture 
du graphe, de l'importance d'un arc donné. La figure 9.4 page 239 dans 
l'étude de cas sur le risque global d'une entreprise (GLORIA) donne un 
aperçu d'un graphe complexe. 


► Les variables continues 


L'essentiel des algorithmes développés pour l'inférence et l'apprentis- 
sage dans les réseaux bayésiens, aussi bien que les outils disponibles sur le 
marché pour mettre en œuvre ces algorithmes utilisent des variables dis- 
crètes. En effet, comme nous l'avons vu dans la partie technique, la ma- 
chinerie des algorithmes d'inférence est essentiellement fondée sur une 
algèbre de tables de probabilités. De même, les algorithmes d'apprentis- 
sage modélisent en général les distributions de probabilité des paramètres 
contenus dans les tables du réseau, c'est-à-dire de probabilités discrètes. 
Même s'il est théoriquement possible de généraliser les techniques déve- 
loppées aux variables continues, il semble que la communauté de recherche 
travaillant sur les réseaux bayésiens n'a pas encore vraiment intégré ces 
problèmes. Cela pénalise cette technologie, en particulier pour des applica- 
tions de data mining où variables continues et discrètes cohabitent. 


► La complexité des algorithmes 


La généralité du formalisme des réseaux bayésiens aussi bien en termes 
de représentation que d'utilisation les rend difficiles à manipuler à partir 
d'une certaine taille. La complexité des réseaux bayésiens ne se traduit pas 
seulement en termes de compréhension par les utilisateurs. Les problèmes 
sous-jacents sont pratiquement tous de complexité non polynomiale, et 
conduisent à développer des algorithmes approchés, dont le comportement 
n'est pas garanti pour des problèmes de grande taille. 
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Tab. 7.1 Avantages comparatifs des réseaux bayésiens 


7.1.5 Comparaison avec d'autres techniques 

Du point de vue des applications, les avantages et inconvénients des ré- 
seaux bayésiens par rapport à quelques-unes des techniques concurrentes 
peuvent se résumer sur le tableau ci-dessus. Nous avons regroupé avan- 
tages et inconvénients selon les trois rubriques utilisées précédemment, 
l'acquisition, la représentation et l'utilisation des connaissances. La repré- 
sentation adoptée est la suivante : 

• À chaque ligne correspond une caractéristique, qui peut être un avan- 
tage, ou la prise en compte d'un problème spécifique. 

• Si la technique considérée permet de prendre en compte ce problème, 
ou présente cet avantage, un signe + est placé dans la case correspon- 
dante. 

• Un signe ★ est placé dans la case de la meilleure technique du point 
de vue de la caractéristique considérée. 

7.2 Où utiliser des réseaux bayésiens ? 


Les propriétés étudiées ci-dessus nous permettent de définir les carac- 
téristiques générales d'une application où il est intéressant d'utiliser des 
réseaux bayésiens en les préférant à une autre technique. Les types d'ap- 
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plications relevant de cette approche sont listés plus loin. 


7.2.1 Caractéristiques générales 
► Une connaissance explicite ou implicite du domaine 

Dans la mesure où un réseau bayésien peut être construit soit à partir 
de données, par apprentissage, soit à partir d'une modélisation explicite 
du domaine, il suffit que l'une ou l'autre des formes de connaissances ou 
une combinaison des deux soit disponible pour pouvoir envisager d'utili- 
ser cette technique dans une application. 

En partant d'une connaissance explicite même incomplète, et en utili- 
sant la capacité d'apprentissage incrémental des réseaux bayésiens, on peut 
développer une approche de modélisation en ligne, c'est-à-dire sans archi- 
ver les exemples mêmes. En effet, un réseau bayésien n'est rien d'autre que 
la représentation d'une distribution de probabilité. Si la structure de cette 
distribution est imposée, on peut directement calculer l'impact de chaque 
nouvel exemple sur les paramètres de cette distribution. 
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FlG. 7.5 Modélisation en ligne pour la détection de fraudes 
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Ce type d'approche peut être envisagé dans des applications de prévi- 
sion de comportements d'achat ou de détection de fraudes, par exemple 
dans le cas du commerce électronique. Le schéma de la figure 7.5 page 
précédente montre un exemple très simple d'une telle application : 

• On cherche à modéliser la distribution de probabilité liant le type 
d'une carte de crédit, le lieu de la transaction, l'écart du montant de 
la transaction par rapport à la moyenne et l'existence d'une fraude. 

• La structure de cette distribution est supposée fixée. 

• Le flux des transactions enregistrées modifie les tables de probabilités 
conditionnelles . 

Cet exemple suppose cependant une historisation partielle des infor- 
mations, puisque le retour sur la fraude effective ne peut intervenir immé- 
diatement. 

► Une utilisation complexe ou évolutive 

En termes d'utilisation du modèle, l'avantage essentiel des réseaux bayé- 
siens par rapport aux autres techniques est de permettre une formalisation 
complète d'un domaine de connaissances sous forme de graphe causal. Ce 
graphe peut être utilisé ensuite pour effectuer des raisonnements, en for- 
mulant des requêtes relativement complexes. 

Cependant, cette technologie reste aujourd'hui relativement difficile à 
maîtriser pour des problèmes de grande taille. Il nous semble donc qu'elle 
ne doit être considérée que là où les techniques plus simples ne peuvent 
pas donner satisfaction. 

Par exemple, dans un problème de prévision ou de classification spéci- 
fié de façon claire, et pour lequel la connaissance des règles sous-jacentes 
n'est pas essentielle, il nous semble préférable d'utiliser un modèle de ré- 
gression ou un réseau de neurones. 

En revanche, pour une application de data mining, au sens premier 
du terme, c'est-à-dire au sens où l'on recherche des relations a priori non 
connues entre des données, les méthodes d'apprentissage dans les réseaux 
bayésiens constituent selon nous une approche très prometteuse. 

Enfin, dans certaines applications, la formulation initiale du besoin peut 
masquer des évolutions pour lesquelles des requêtes complexes sur le mo- 
dèle peuvent s'avérer nécessaires. Considérons par exemple une applica- 
tion de crédit scoring. Initialement formulée comme une application simple 
de classification, elle est mise en œuvre sous forme de réseau de neurones. 
Après quelques mois d'utilisation, on s'aperçoit d'une augmentation signi- 
ficative du taux de refus d'autorisation. L'interprétation de ce problème 
peut se révéler difficile sans un modèle capable d'explications. 
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7.2.2 Classification des applications par types 

Un réseau bayésien est un moyen de représenter la connaissance d'un 
système. Une telle représentation n'est bien entendu pas une fin en soi ; elle 
s'effectue, selon les contextes, dans le but de : 

• prévoir le comportement du système ; 

• diagnostiquer les causes d'un phénomène observé dans le système ; 

• contrôler le comportement du système ; 

• simuler le comportement du système ; 

• analyser des données relatives au système ; 

• prendre des décisions concernant le système. 

Ces différents types d'applications reposent en général sur deux types 
de modèles : les modèles symboliques pour le diagnostic, la planification, 
et les modèles numériques pour la classification, la prévision, le contrôle. 

Comme nous l'avons vu ci-dessus, les réseaux bayésiens autorisent les 
deux types de représentation et d'utilisation des connaissances. Leur champ 
d'application est donc vaste, d'autant que le terme système s'entend ici 
dans son sens le plus large. Il peut s'agir, pour donner quelques exemples, 
du contenu du chariot d'un client de supermarché, d'un navire de la Ma- 
rine, du patient d'une consultation médicale, du moteur d'une automo- 
bile, d'un réseau électrique ou de l'utilisateur d'un logiciel. Ajoutons que 
la communauté de chercheurs qui développent la théorie et les applications 
des réseaux bayésiens rassemble plusieurs disciplines scientifiques : l'intel- 
ligence artificielle, les probabilités et statistiques, la théorie de la décision, 
l'informatique et aussi les sciences cognitives. Ce facteur contribue à la dif- 
fusion et donc à la multiplicité des applications des réseaux bayésiens. 

► Modèles symboliques 

Par rapport aux systèmes à base de règles déterministes, le plus sou- 
vent utilisés dans les systèmes experts, les réseaux bayésiens permettent 
d'intégrer l'incertitude dans le raisonnement. 

Ils sont donc adaptés aux problèmes où l'incertitude est présente, que 
ce soit dans les observations, ou dans les règles de décision. 

Les systèmes de diagnostic sont ceux qui utilisent le plus complètement 
les possibilités des réseaux bayésiens, en particulier en ce qui concerne les 
capacités d'explication, de simulation, etc. Un avantage spécifique des ré- 
seaux bayésiens dans les problèmes de diagnostic est de pouvoir détec- 
ter plusieurs pannes simultanées. Les techniques déterministes comme les 
arbres de décision conduisent le plus souvent à un seul diagnostic à la fois. 

Certaines applications de planification peuvent également utiliser des 
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réseaux bayésiens, mais utilisés en quelque sorte comme sous-systèmes, 
permettant de déterminer les actions dont la faisabilité ou le succès ont une 
bonne probabilité. 

Les réseaux bayésiens sont en revanche moins adaptés aux applications 
apparentées à la résolution de problèmes ou à la démonstration de théo- 
rèmes. 

► Modèles numériques 

Les systèmes de classification mettent en général en oeuvre des archi- 
tectures simplifiées de réseaux (arbres ou poly arbres). Des études et des 
applications récentes montrent que les systèmes de classification basés sur 
des arbres bayésiens donnent des résultats en général significativement 
meilleurs que les algorithmes de classification de type arbre de décision 
(C4.5, C5). 

Les méthodes d'apprentissage de structure dans les réseaux bayésiens 
permettront de donner tout son sens au terme de data mining. S'il s'agit 
en effet de rechercher des relations entre des variables sans a priori, ni les 
réseaux de neurones, ni les arbres de décision ne sont adaptés à ce type 
de problème. Dans les applications de modélisation numérique, comme la 
prévision, le contrôle ou l'estimation, il nous semble en revanche que le 
formalisme global des réseaux bayésiens est trop lourd pour être utilisé 
tel quel, du moins dans un premier temps. Cela ne signifie pas pour au- 
tant qu'il ne puisse pas contribuer à de telles applications. Ainsi, une étude 
récente a permis d'améliorer significativement la performance de réseaux 
neuronaux en prévision, en optimisant le choix des paramètres d'appren- 
tissage grâce à un réseau bayésien simple. À terme, l'unification des algo- 
rithmes d'apprentissage permettra sans doute d'intégrer un modèle neu- 
ronal de prévision à l'intérieur d'un système plus global, où pourront être 
optimisés simultanément, soit des paramètres d'apprentissage, soit des pa- 
ramètres de la décision basée sur la prévision. 


7.2.3 Classification des applications par domaines 
► Santé 

Les premières applications des réseaux bayésiens ont été développées 
dans le domaine du diagnostic médical. 

Les réseaux bayésiens sont particulièrement adaptés à ce domaine parce 
qu'ils offrent la possibilité d'intégrer des sources de connaissances hétéro- 
gènes (expertise humaine et données statistiques), et surtout parce que leur 
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capacité à traiter des requêtes complexes (explication la plus probable, ac- 
tion la plus appropriée) peuvent constituer une aide véritable et interactive 
pour le praticien. 

Le système Pathfinder, développé au début des années 1990 a été conçu 
pour fournir une assistance au diagnostic histopathologique, c'est-à-dire 
basé sur l'analyse des biopsies. Il est aujourd'hui intégré au produit Intel- 
lipath, qui couvre un domaine d'une trentaine de types de pathologies. Ce 
produit est commercialisé par l'éditeur américain Chapman et Hall, et a été 
approuvé par l 'American Medical Association. 

Dans le domaine de la santé, une application intéressante des algo- 
rithmes issus des réseaux bayésiens a permis d'améliorer considérablement 
la recherche de la localisation de certains gènes, dans le cadre du projet 
Human Genome. Nous reviendrons sur cette application dans la section 
suivante. 

► Industrie 

Dans le domaine industriel, les réseaux bayésiens présentent également 
certains avantages par rapport aux autres techniques d'intelligence artifi- 
cielle. Leur capacité réelle d'apprentissage incrémental, c'est-à-dire d'adap- 
tation de la connaissance en fonction des situations rencontrées, en fait les 
contrôleurs idéaux de systèmes autonomes ou de robots adaptatifs. 

En effet, la propriété essentielle d'un système autonome, pour pouvoir 
« survivre », est de s'adapter aux modifications structurelles de son envi- 
ronnement. La capacité du système à gérer ses propres altérations, en parti- 
culier la perte de certaines fonctions, est également importante. Ainsi, dans 
la situation où certains de ses capteurs ou effecteurs sont endommagés, le 
système doit être capable de mettre à jour son domaine de viabilité, c'est-à- 
dire de réévaluer les capacités d'action qu'il lui reste, malgré le dommage 
qu'il a subi. 

C'est cette idée qui a été mise en œuvre par la société danoise Hugin, 
considérée comme l'un des pionniers dans le développement des réseaux 
bayésiens. Hugin a développé pour le compte de Lockheed Martin le sys- 
tème de contrôle d'un véhicule sous-marin autonome. Ce système évalue 
en permanence les capacités du véhicule à réagir à certains types d'évé- 
nements. De cette façon, en fonction des capacités qui sont cruciales pour 
le reste de la mission, le système peut prendre des décisions qui vont de 
la simple collecte d'informations complémentaires, à la modification de la 
mission, ou jusqu'à l'abandon de celle-ci. 

Transposant cette idée de contrôle de systèmes autonomes du monde 
réel à l'univers virtuel des systèmes et réseaux informatiques, les réseaux 
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bayésiens devraient également équiper les agents intelligents. Comme nous 
l'avons déjà mentionné, le diagnostic est un des autres domaines de prédi- 
lection des réseaux bayésiens dans l'industrie, en particulier grâce à l'uti- 
lisation des requêtes avancées sur les réseaux. Ce domaine est aujourd'hui 
l'un des plus développés en termes d'applications opérationnelles des ré- 
seaux bayésiens (Hewlett-Packard, General Electric, Ricoh, etc.) 


► Défense 

Comme pour beaucoup de techniques issues de l'intelligence artificielle, 
c'est grâce à la défense américaine que les réseaux bayésiens ont pu connaî- 
tre leurs premiers développements. 

La fusion de données est en particulier un domaine d'application privi- 
légié des réseaux bayésiens, grâce à leur capacité à prendre en compte des 
données incomplètes ou incertaines, et à guider la recherche ou la vérifica- 
tion de ces informations. 

La fusion de données peut se définir comme le processus qui consiste à 
inférer une information à laquelle on n'a pas directement accès, mais qui est 
relayée par une ou plusieurs sources imparfaites. Linalement, un détective 
privé qui affine ses conclusions à mesure que les indices se complètent est 
un spécialiste de la fusion de données. 

Il est clair que cette approche est essentielle dans le domaine du rensei- 
gnement, tactique ou stratégique. Par exemple, l'identification d'un navire 
ennemi est impossible directement. On va combiner des informations is- 
sues de systèmes de mesure, éventuellement brouillées, avec d'autres types 
de renseignements, également incertains. Les informations disponibles se 
complètent au fur et à mesure des efforts accomplis pour identifier ce na- 
vire, permettant de renforcer ou, au contraire, de réviser les conclusions 
effectuées. 

Un exemple d'application dans la défense tactique est donné dans la 
section suivante. 


► Banque/finance 

Les applications dans le domaine de la banque et de la finance sont 
encore rares, ou du moins ne sont pas publiées. Mais cette technologie pré- 
sente un potentiel très important pour un certain nombre d'applications re- 
levant de ce domaine, comme l'analyse financière, le scoring, l'évaluation 
du risque ou la détection de fraudes. 
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Les réseaux bayésiens sont 
parfaitement adaptés à la re- 
présentation de la fusion de 
données. 

Ici, l’identité du navire déter- 
mine (est la cause de) sa si- 
gnature sonar et sa vitesse. 
Mais cette identité doit être 
inférée à partir des informa- 
tions issues des systèmes 
de mesure. 


FlG. 7.6 Principe de la fusion de données par réseau bayésien 


En premier lieu, les réseaux bayésiens offrent un formalisme unifié pour 
la manipulation de l'incertitude, autrement dit du risque, dont la prise en 
compte est essentielle dès qu'il s'agit de décision financière. 

Ensuite, la possibilité de coupler expertise et apprentissage est ici très 
importante, non seulement parce que les deux sources de connaissances 
sont en général disponibles dans ce domaine, mais aussi et surtout parce 
que cette capacité peut aider à répondre au problème des changements 
structurels d'environnement. 

Traitées dans les années 1980 avec des systèmes experts, des applica- 
tions comme l'analyse financière, le scoring ou la détection de fraudes ont 
été progressivement considérées comme relevant du domaine de la modé- 
lisation quantitative, et donc abordées par des techniques comme les ré- 
seaux neuronaux ou les arbres de décision, techniques quantitatives qui se 
révèlent incapables de prendre en compte par elles-mêmes la révision des 
modèles. 

L'exemple de l'autorisation des transactions sur cartes bancaires est as- 
sez significatif. L'un des premiers systèmes experts développés dans ce do- 
maine fut YAuthorizer Assistant d ' American Express, au début des années 80. 
Dès la fin de la décennie, la société californienne HNC ( Hecht-Nielsen Neuro- 
computing) devient le leader des systèmes de détection de fraudes sur cartes 
bancaires. Son système Falcon équipe la plupart des émetteurs de cartes aux 
Etats-Unis. Fondé initialement sur une technologie de réseaux neuronaux, 
le système Falcon a récemment évolué pour y intégrer... un système expert ! 
Pourquoi ? La fraude est, presque par définition, un phénomène évolutif, 
qui s'adapte aux parades qui y sont opposées. Un modèle construit à par- 
tir de données historiques a donc nécessairement une durée de vie limitée 
dans un tel environnement. Donc, même si les réseaux de neurones étaient 
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la technique la plus fiable pour identifier les comportements frauduleux, 
comme ils reposent sur le traitement de données historiques, ils ne peuvent 
s'adapter assez vite aux changements de ces comportements. 

On retrouve la même problématique dans la finance de marchés, où 
les modèles de prévision ou de gestion mis au point sur des données his- 
toriques ne peuvent s'adapter aux changement structurels brusques des 
marchés. 

Récemment, les nouveaux accords de Bâle II ont ouvert un nouveau 
champ d'application très significatif pour les réseaux bayésiens dans le do- 
maine bancaire. Ces accords fixent les nouvelles règles que doivent appli- 
quer les banques pour la détermination de leurs exigences en fonds propres. 
Ces fonds propres doivent être dimensionnés de façon à couvrir à un ni- 
veau de probabilité élevé les différents types de risques encourus par la 
banque : risques de crédit, risques de marché et risques opérationnels. 

Le risque opérationnel a été défini par l'accord de Bâle II de façon gé- 
nérale comme « le risque de pertes provenant de processus internes in- 
adéquats ou défaillants, de personnes et systèmes ou d'événements ex- 
ternes », et de façon spécifique en identifiant sept thèmes principaux de 
risque, comme la fraude, la relation avec les clients ou le personnel, les sys- 
tèmes d'information, etc. La prise en compte de ces risques est en général 
très difficile, car les plus significatifs concernent des événements rares mais 
de fort impact. Comme de nombreux spécialistes de la gestion du risque 
l'ont mis en avant, en particulier [Ale02], l'utilisation de modèles bayésiens 
est particulièrement adaptée pour plusieurs raisons : 

• Les réseaux bayésiens permettent de coupler les connaissances des 
experts et les données disponibles. 

• Ils permettent de conditionner les risques et donc de mieux évaluer 
les pertes encourues. 

• Ils permettent d'identifier des leviers de réduction de risque. 

• Les modèles établis sont transparents et facilement auditables par les 
organismes de contrôle. 

Gageons que l'utilisation des réseaux bayésiens deviendra probable- 
ment l'une des méthodes de référence pour la modélisation du risque opé- 
rationnel. 

L'étude de cas sur la modélisation du risque global d'une entreprise 
(méthode GLORIA) que nous présentons dans le chapitre 9 permet d'avoir 
un aperçu de la démarche qui peut être adoptée pour une telle application, 
même si les objectifs visés sont plus qualitatifs. 
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► Marketing 


Ce que l'on appelle aujourd'hui le data mining, est probablement le 
domaine où le potentiel des réseaux bayésiens est le plus élévé. Le data 
mining est défini par certains comme l'extraction automatique à partir de 
bases de données d'informations a priori inconnues et à valeur prédictive. 
Nous préférons le définir comme l'utilisation rationnelle de l'information 
contenue dans les données pour la prise de décision. 

Quelle que soit la définition retenue, il reste que le développement ac- 
tuel du data mining s'explique essentiellement par les applications dans 
le domaine du marketing, et que les réseaux bayésiens sont parfaitement 
adaptés à ces applications. 

Le marketing est en train d'évoluer vers une gestion de plus en plus 
fine et individualisée du capital client, considéré comme un nouvel actif 
de l'entreprise. Les applications de prévision, de fidélisation, d'analyse du 
risque, d'anticipation des besoins, de ciblage d'actions s'inscrivent toutes 
dans cette démarche. 

Toutes les caractéristiques des réseaux bayésiens sont autant d'atouts 
pour ces types d'applications : 

• La gestion de l'incertitude, car évidemment toutes les actions mar- 
keting sont prises dans un contexte d'incertitude, où l'on recherche 
avant tout à augmenter la probabilité de succès. 

• La capacité à intégrer des données incomplètes au cours de l'appren- 
tissage, car les données utilisées dans le data mining appliqué au 
marketing proviennent souvent de sources déclaratives, de qualité 
approximative. 

• L'apprentissage incrémental, car les relations évoluent avec le temps. 

• La gestion de requêtes complexes, comme l'analyse de sensibilités, la 
recherche de l'action la plus appropriée. 

Notons de plus que l'utilisation des réseaux bayésiens permet égale- 
ment d'envisager des applications de data mining pour de petites bases de 
données. Ce problème, qui reste rarement considéré aujourd'hui, peut ce- 
pendant être très réel dans certaines applications. Comment faire pour tirer 
parti le plus rapidement possible de la connaissance à partir des premiers 
cas disponibles ? L'intégration avec de la connaissance a priori peut être une 
réponse à ce problème. 

Nous pensons que le data mining, et en particulier ses applications dans 
le domaine du marketing seront l'un des moteurs principaux du dévelop- 
pement des réseaux bayésiens dans un futur proche. Certains indicateurs, 
que nous analysons dans la section suivante sur l'offre commerciale et la 
recherche, semblent confirmer cette prévision. 
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Nous avons vu ci-dessus que certaines des caractéristiques des réseaux 
bayésiens en faisaient des systèmes de contrôle idéaux pour des systèmes 
autonomes dans des environnements changeants. Ces propriétés sont éga- 
lement valables pour équiper les agents logiciels, locaux à une machine, ou 
autonomes sur des réseaux ou sur Internet. Un agent logiciel est une appli- 
cation qui réalise de façon autonome une mission qui lui a été assignée par 
un utilisateur, ou par un autre agent. Les caractéristiques principales des 
agents intelligents sont donc : 

• L'autonomie. Cela implique en particulier que l'agent doit pouvoir 
accomplir sa tâche sans se reporter systématiquement à son donneur 
d'ordre, et ce, même si des événements imprévus surviennent. 

• La motivation. Un agent est dirigé par un but et doit éventuellement 
définir son propre plan d'action pour atteindre son but. 

• La réactivité. Un agent doit pouvoir modifier son comportement lors- 
qu'une nouvelle information devient disponible. 

• L'adaptativité. Un agent doit être capable d'intégrer les modifications 
de son environnement. Ceci est particulièrement vrai pour les agents 
opérant sur Internet ou d'autres réseaux, dont l'environnement est 
par nature instable. 

Les réseaux bayésiens sont probablement l'une des technologies les plus 
adaptées pour construire l'intelligence des agents. Ils assurent en effet les 
différentes propriétés présentées précédemment : 

• L'autonomie est représentée par la capacité des réseaux bayésiens de 
fournir des décisions en présence d'incertitude, ou en l'absence de 
certaines informations. 

• La motivation peut être représentée par certains types d'inférences, 
ou par un système de planification. 

• La réactivité est le principe même de l'inférence dans les réseaux 
bayésiens (révision de la conclusion). 

• L'adaptation à l'environnement est rendue possible par les capacités 
d'apprentissage incrémental des réseaux bayésiens. 

La compacité de la représentation de la connaissance autorisée par les 
réseaux bayésiens est aussi un avantage pour en faire une intelligence em- 
barquée. 

L'utilisation de réseaux bayésiens dans les agents bureautiques a été 
largement développée par Microsoft dans les outils d'aide et de diagnos- 
tic pour son système d'exploitation Windows, à partir de Windows 98. De 
même, l'agent Office Assistant est un système d'aide proactif intégré dans 
Office, à partir de la version 97. Plusieurs agents de support technique de 
Microsoft ont également été développés dans le cadre du projet LUMIERE 
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du groupe DTAS ( Decision Theory and Adaptive Systems). 

L'application Vista, détaillée dans le chapitre suivant, peut également 
être considérée comme un agent intelligent, dont le rôle est de sélectionner 
les données présentées à un utilisateur en fonction de l'état du système 
physique qu'il doit superviser. 

Les réseaux bayésiens constituent selon nous le modèle idéal pour em- 
barquer de l'intelligence ou de la connaissance. 

Embarquer de l'intelligence revient à doter un agent d'un équipement 
lui permettant de décider dans des environnements incertains, et de s'adap- 
ter lorsque ces environnements changent. Un module bayésien de prise de 
décision, éventuellement capable d'adaptation, est l'un des meilleurs équi- 
pements que l'on puisse fournir à un agent envoyé en mission sur Internet, 
ou sur d'autres types de réseau, où l'information est par nature incertaine 
et évolutive, voire manipulée. 

► Gestion des connaissances 

Dans la première partie de ce livre, nous avons montré comment les ré- 
seaux bayésiens pouvaient être construits simplement en cherchant à quan- 
tifier la représentation de graphes de causalités. Cette représentation gra- 
phique des domaines de connaissance reste la base des réseaux bayésiens. 

Si les réseaux sont de taille raisonnable, cette représentation de la con- 
naissance est très simple et intuitive, et permet d'envisager des échanges 
de modèles de connaissances sous forme de réseaux. Certaines expériences 
ont montré que l'utilisation de réseaux bayésiens permet de faciliter l'é- 
change entre experts d'un domaine. 

Le domaine de la gestion des connaissances, qui connaît un intérêt crois- 
sant, est donc également un champ d'application potentiel pour les réseaux 
bayésiens, dans la mesure où ceux-ci offrent un formalisme riche et intuitif 
de représentation de la connaissance. 


7.3 Comment utiliser des réseaux bayésiens ? 


La construction d'un réseau bayésien s'effectue en trois étapes essen- 
tielles, qui sont présentées sur la figure 7.7 ci-après. 

Chacune des trois étapes peut impliquer un recueil d'expertise, au moy- 
en de questionnaires écrits, d'entretiens individuels ou encore de séances 
de brainstorming. Préconiser, dans un cadre général, l'une ou l'autre de ces 
approches serait pour le moins hasardeux ; les chapitres suivants montre- 
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ront quels choix ont été retenus dans plusieurs utilisations réelles des ré- 
seaux bayésiens. 



FlG. 7.7 Étapes de construction d'un réseau bayésien 


7.3.1 Identification des variables et de leurs espaces d'états 

La première étape de construction du réseau bayésien est la seule pour 
laquelle l'intervention humaine est absolument indispensable. Il s'agit de 
déterminer l'ensemble des variables Xp catégorielles ou numériques, qui 
caractérisent le système. Comme dans tout travail de modélisation, un com- 
promis entre la précision de la représentation et la maniabilité du modèle 
doit être trouvé, au moyen d'une discussion entre les experts et le modéli- 
sateur. 

Lorsque les variables sont identifiées, il est ensuite nécessaire de pré- 
ciser l 'espace d'états de chaque variable X|, c'est-à-dire l'ensemble de ses 
valeurs possibles. 

La majorité des logiciels de réseaux bayésiens ne traite que des modèles 
à variables discrètes, ayant un nombre fini de valeurs possibles. Si tel est 
le cas, il est impératif de discrétiser les plages de variation des variables 
continues. Cette limitation est parfois gênante en pratique, car des discréti- 
sations trop fines peuvent conduire à des tables de probabilités de grande 
taille, de nature à saturer la mémoire de l'ordinateur. 
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7.3.2 Définition de la structure du réseau bayésien 


La deuxième étape consiste à identifier les liens entre variables, c'est- 
à-dire à répondre à la question : pour quels couples (i, j ) la variable X| 
influence-t-elle la variable Xj ? 

Dans la plupart des applications, cette étape s'effectue par l'interroga- 
tion d'experts. Dans ce cas, des itérations sont souvent nécessaires pour 
aboutir à une description consensuelle des interactions entre les variables Xi, 
L'expérience montre cependant que la représentation graphique du réseau 
bayésien est dans cette étape un support de dialogue extrêmement pré- 
cieux. 

Un réseau bayésien ne doit pas comporter de circuit orienté ou boucle 
(figure 7.8 ). Cependant, le nombre et la complexité des dépendances iden- 
tifiées par les experts laissent parfois supposer que la modélisation par un 
graphe sans circuit est impossible. Il est alors important de garder à l'esprit 
que, quelles que soient les dépendances stochastiques entre des variables 
aléatoires discrètes, il existe toujours une représentation par réseau bayé- 
sien de leur loi conjointe. Ce résultat théorique est fondamental et montre 
bien la puissance de modélisation des réseaux bayésiens. 



Lorsque l'on dispose d'une quantité suffisante de données de retour 
d'expérience concernant les variables X L , la structure du réseau bayésien 
peut également être apprise automatiquement par le réseau bayésien, à 
condition bien sûr que le logiciel utilisé soit doté de la fonctionnalité adé- 
quate. 
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7.3.3 Loi de probabilité conjointe des variables 

La dernière étape de construction du réseau bayésien consiste à rensei- 
gner les tables de probabilités associées aux différentes variables. 

Dans un premier temps, la connaissance des experts concernant les lois 
de probabilité des variables est intégrée au modèle. 

Concrètement, deux cas se présentent selon la position d'une variable Xi 
dans le réseau bayésien : 

• La variable X| n'a pas de variable parente : les experts doivent préci- 
ser la loi de probabilité marginale de X|. 

• La variable Xi possède des variables parentes : les experts doivent ex- 
primer la dépendance de X L en fonction des variables parentes, soit 
au moyen de probabilités conditionnelles, soit par une équation dé- 
terministe (que le logiciel convertira ensuite en probabilités). 

Le recueil de lois de probabilités auprès d'experts est une étape délicate 
du processus de construction du réseau bayésien. Typiquement, les experts 
se montrent réticents à chiffrer la plausibilité d'un événement qu'ils n'ont 
jamais observé. 

Cependant, une discussion approfondie avec les experts, aboutissant 
parfois à une reformulation plus précise des variables, permet dans de 
nombreux cas l'obtention d'appréciations qualitatives. Ainsi, lorsqu'un évé- 
nement est clairement défini, les experts sont généralement mieux à même 
d'exprimer si celui-ci est probable, peu probable, hautement improbable, 
etc. Il est alors possible d'utiliser une table de conversion d'appréciations 
qualitatives en probabilités, comme l'échelle de Lichtenstein et Newman 
proposé par [AyyOl, LP01]. La figure 7.9 ci-après représente graphique- 
ment un extrait de cette table (les marges d'erreur associées à chaque proba- 
bilité sont figurées en gris foncé). Le développement des réseaux bayésiens 
a donné lieu à de nombreux travaux sur le thème de la correspondance 
entre les termes linguistiques et les probabilités quantitatives [RW99]. 

Le cas d'absence totale d'information concernant la loi de probabilité 
d'une variable Xt peut être rencontré. La solution pragmatique consiste 
alors à affecter à X| une loi de probabilité arbitraire, par exemple une loi 
uniforme. Lorsque la construction du réseau bayésien est achevée, l'étude 
de la sensibilité du modèle à cette loi permet de décider ou non de consa- 
crer davantage de moyens à l'étude de la variable X|. 

La quasi-totalité des logiciels commerciaux de réseaux bayésiens per- 
met l'apprentissage automatique des tables de probabilités à partir de don- 
nées. Par conséquent, dans un second temps, les éventuelles observations 
des X| peuvent être incorporées au modèle, afin d'affiner les probabilités 
introduites par les experts. 
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FiG. 7.9 Correspondance entre appréciations qualitatives et probabilités (échelle de Lich- 
tenstein et Newman) 


Il est rare en pratique que les données soient suffisamment nombreuses 
et fiables pour caractériser de manière satisfaisante la loi de probabilité 
conjointe des variables Xi, Cependant, si tel est le cas, l'apprentissage auto- 
matique des probabilités rend inutile la phase de renseignement du modèle 
par des probabilités expertes ; on peut alors se contenter, dans la phase ini- 
tiale, d'attribuer à chaque variable une loi de probabilité uniforme. 
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Exemples d'applications 


N ous présentons dans ce chapitre des applications auxquelles nous 
n'avons pas participé directement, mais pour lesquelles nous avons pu ob- 
tenir des informations, soit à partir de publications scientifiques ou com- 
merciales, soit directement auprès des sociétés citées. Nous décrivons tout 
d'abord en détail deux applications particulièrement ambitieuses sur l'un 
des aspects de l'utilisation des réseaux bayésiens : la détection de fraude 
(ATT), pour ce qui est de l'apprentissage, et l'aide à la décision en situa- 
tion critique (NASA) pour l'inférence. Nous présentons ensuite une revue 
d'applications existantes, classées par domaine. 


8.1 Détection de fraude (ATT) 


L'une des applications qui fait référence pour l'utilisation des réseaux 
bayésiens pour le data mining est le système de détection de fraude mis 
en production à la fin des années 1990 par la société américaine de télé- 
communications ATT [ES95]. L'application développée vise deux objectifs : 
premièrement, détecter, soit au niveau des clients, soit au niveau des ap- 
pels, un risque élévé de non-recouvrement et, deuxièmement, décider les 
actions à effectuer en fonction de ce niveau de risque. Les coûts mis en jeu 
s'évaluent en centaines de millions de dollars. 

Deux systèmes fondés sur les réseaux bayésiens ont été développés pour 
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chacun de ces deux aspects du problème. Le système APRI ( Advanced Pat- 
tern Récognition and Identification) utilise un algorithme spécialisé d'appren- 
tissage dans un réseau bayésien pour répondre au problème de l'évaluation 
du risque lié à un client ou à un appel. Le système NESDT ( Normative Expert 
System Development Tool ) utilise le formalisme des diagrammes d'influence 
pour produire les recommandations d'action suivant le niveau de risque, 
et les autres caractéristiques du client. 

La détection de fraudes dans le domaine des télécommunications possède 
certaines caractéristiques qui rendent cette application particulièrement dif- 
ficile : 

• Le nombre des fraudeurs ou des mauvais payeurs est en général très 
faible par rapport à celui des bons clients (1 ou 2 %). 

• Les données disponibles pour chaque client, ou pour chaque appel, 
sont continues pour certaines (comme le montant de l'appel, ou le 
montant de la facture totale du client), et discrètes pour d'autres, avec 
un nombre parfois très élevé de modalités (par exemple, pour la ville 
d'émission ou de destination de l'appel). 

• La taille des bases de données traitées est impressionnante : quelques 
millions d'appels sont émis chaque jour sur le réseau d'ATT. Cela 
correspond à quelque 50 giga-octets de données collectées par jour. 

• Le problème est dynamique par nature, d'une part parce que la fraude 
évolue dans le temps, mais surtout parce que le système même a un 
impact sur la structure de la fraude, dans la mesure où il contraint les 
fraudeurs à s'écarter des formes qu'il a détectées. 

• Enfin, l'évaluation du coût d'une fausse alarme, c'est-à-dire du fait de 
décider à tort qu'un appel ou un client est mauvais du point de vue 
du recouvrement, est difficile. En effet, suivant l'action entreprise sur 
une telle fausse alarme, le client peut aller jusqu'à résilier son abon- 
nement, ce qui représente un manque à gagner différent suivant le 
type de client. C'est la raison pour laquelle les deux applications ont 
été séparées. 

Pour rendre possible l'apprentissage du système APRI, une méthode 
spécialisée d'apprentissage dans les réseaux bayésiens a été développée, 
décomposée en deux étapes principales. 

La première étape est une recherche heuristique de la structure du réseau 
qui constitue la spécificité de la méthode. En effet, l'heuristique proposée 
par Cooper et développée dans la partie théorique ne s'applique pas ici, car 
les variables ne sont pas toutes discrètes. 

En outre l'hypothèse d'indépendance des exemples n'est pas vérifiée dans 
le cas où l'on traite une base de données d'appels, qui contient donc des 
séquences de plusieurs appels pour un même client. 


(H) 

www.frenchpdf.com 


Chapitre 8 - Exemples d'applications 



Schéma du réseau bayésien utilisé dans 
APRI 

La classification d’un appel ou d’un client 
(bon/mauvais) est considéré comme une 
des causes des caractéristiques observées 
de cet appel ou de ce client. Ces caractéris- 
tiques peuvent également être reliées entre 
elles par des relations de cause à effet. 

(7t est la classe, Xt ,..., X p sont les caracté- 
ristiques, discrètes ou continues). 


Diagramme 


d’influence 


simplifié 


de 


NESDT 



La classe attribuée par APRI à l’appel ou 
au client, et le type de client, conditionnent 
la décision prise. 

Suivant le type de client, cette décision 
conditionne une réaction du client. Celle-ci, 
associée à la valeur estimée pour ce 
client, permet d’évaluer le coût de chaque 
décision. 


FlG. 8.1 Les systèmes APRI et NESDT d'ATT 


L'algorithme qui a été développé utilise une évaluation de l'informa- 
tion mutuelle entre la classe et chacune des variables, et une évaluation 
de l'information mutuelle entre les variables prises deux à deux. Une fois 
ces calculs faits, les liens les plus significatifs sont retenus dans le réseau, 
jusqu'à un certain seuil du cumul des informations mutuelles, qui est un 
paramètre du système. Connaissant cette structure, on calcule dans une 
deuxième étape les probabilités conditionnelles et la probabilité, à partir 
de la base d'exemples. 

Compte tenu de l'algorithme utilisé pour la recherche de structure, le 
calcul est relativement rapide et autorise une révision régulière du modèle. 
Les performances du système sont particulièrement intéressantes, et ont été 
comparées à une méthode d'analyse discriminante linéaire et quadratique, 
et à l'algorithme CART qui est une méthode de classification spécialement 
conçue pour les problèmes mixtes (données continues et discrètes). 


Deux tests ont été menés : l'un porte sur les clients, et l'autre sur les ap- 
pels. 
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Dans le test sur les clients, on construit le modèle sur une base d'envi- 
ron 70 000 exemples, dont 10 % de mauvais payeurs. Le modèle est éva- 
lué sur une autre base équivalente. Les performances sont résumées sur 
le graphe suivant, établi sur la base d'évaluation. Le système idéal repré- 
senté par une * détecte 100 % des fraudes avec 0 % de fausses alarmes. 
Le système APRI permet de réaliser les meilleurs compromis entre détec- 
tions et fausses alarmes, et est supérieur aux autres méthodes testées. Par 
exemple, en fixant le seuil d'information à 70 %, APRI détecte environ 12 % 
des fraudes avec un taux de fausses alarmes de 2,5 %, ce qui représente en- 
viron une fraude réelle sur trois alarmes. 


Des performances similaires ont pu être obtenues en appliquant le même 
algorithme sur les données d'appels. Des volumes de données beaucoup 
plus importants ont été traités, puisque les deux bases d'exemples tota- 
lisent dix millions d'appels. L'apprentissage et le traitement s'effectuent en 
moins de dix heures de calcul. Le meilleur système obtenu détecte 20 % des 
fraudes, et 50 % des alarmes sont des fraudes. 

Ce système a été développé par les équipes de recherche internes de 
l'opérateur américain. Selon ATT, les modèles APRI ont été utilisés de façon 
opérationnelle pendant plusieurs années, et leur pouvoir prédictif a pu être 
démontré de façon stable. Les variables utilisées par ATT ne sont, bien sûr, 
pas publiques. Comme nous l'avons mentionné ci-dessus, les modèles uti- 
lisent à la fois des variables mesurant directement des caractéristiques des 
clients et des appels, ainsi que des variables synthétiques. ATT a cepen- 
dant accepté de nous communiquer le graphe d'un des modèles utilisés, 
qui montre qu'assez peu de liens de causalité existent entre les caractéris- 
tiques. 


8.2 Aide à la décision en temps réel (NASA) 


L'application Vista a été développée par la NASA en collaboration avec 
la société californienne Knowledge Industries [HB95]. 

Cette application est fondée sur la recherche d'un compromis entre le 
temps nécessaire pour prendre une décision, qui augmente avec le nombre 
d'informations à analyser, et le temps disponible pour prendre cette déci- 
sion, qui peut être court si le système concerné évolue rapidement. 

Cet arbitrage est particulièrement sensible dans le domaine de Vista, 
qui est le suivi des moteurs de positionnement orbital de la navette spatiale 
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FlG. 8.2 Graphe d'un des modèles utilisés dans APRI (source ATT) 


américaine. Il s'agit de suivre en temps réel les paramètres décrivant l'état 
des systèmes de propulsion pendant certaines phases critiques comme l'in- 
sertion et la stabilisation de la navette sur son orbite. 

Les ingénieurs de vol ont accès à un grand nombre de paramètres de 
contrôle des moteurs, qui sont relayés par des capteurs. Jusqu'à 25 000 
données sont potentiellement disponibles en temps réel. Si un problème 
survient sur un moteur pendant une phase critique, l'ingénieur de vol doit 
décider le plus rapidement possible si ce moteur doit être arrêté ou non et, 
si oui, comment répartir le carburant entre les autres moteurs pour conti- 
nuer la mission. Chaque seconde passée à analyser la situation peut être 
une seconde pendant laquelle du carburant continue à être injecté dans un 
moteur défectueux. 

Réciproquement, couper un moteur avant qu'une vitesse critique soit 
atteinte peut conduire à interrompre la mission. 

Cette dépendance critique du processus de décision par rapport au temps 
est représentée par le diagramme d'influence de la figure 8.3 ci-après. 

L'objectif étant de réduire le temps nécessaire à l'analyse de la situation, 
et toutes choses étant égales par ailleurs, le seul paramètre sur lequel on 
peut jouer est le nombre et la nature des informations affichées sur l'écran 
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L'état réel du système est la 
cause directe des informa- 
tions affichées par les cap- 
teurs E, , E 2 ,.~, E n . 

Sur la base de tout ou par- 
tie de ces informations, une 
action est prise après un cer- 
tain temps d’analyse 6t. 
Suivant qu’elle est ou non 
appropriée, la durée de sa 
mise en oeuvre, et l’état réel 
du système lors de l’analyse 
de la situation, on mesure 
une utilité de l’action prise. 


FiG. 8.3 Diagramme d'influence d’un processus de décision en temps réel 


de contrôle de l'opérateur. Moins il y aura d'informations affichées, plus 
rapide sera l'analyse de la situation, et plus elles seront pertinentes par 
rapport à l'état réel du système, plus efficace sera l'action entreprise. 

Un gestionnaire d'affichage est donc introduit dans le système. Son rôle 
est de sélectionner les informations à afficher. À cette fin, on attribue un 
score à chaque information, qui est appelé « utilité moyenne de l'informa- 
tion affichée », ou EVDI ( Expected Value of Displayed Information). Cet indi- 
cateur mesure le gain d'utilité qui sera obtenu en moyenne en affichant une 
information complémentaire. Cet indicateur ne peut être calculé que si l'on 
dispose de trois modèles probabilistes : 

• Le modèle du système physique lui-même, incluant les capteurs. Ce 
modèle permet en particulier de calculer la probabilité que le système 
soit dans un certain état, étant données les valeurs affichées par les 
capteurs. 

• Le modèle de l'impact d'une action sur le système physique. 

• Le modèle de l'opérateur, ou comment les informations qu'il peut 
observer au niveau des capteurs déterminent son interprétation de la 
situation et l'action qu'il va décider de mettre en œuvre. 

Les ingénieurs de la NASA, aidés de ceux de la société californienne 
Knowledge Industries, ont développé ces trois modèles sous forme de ré- 
seaux bayésiens. 

L'ensemble du modèle représenté par la figure 8.4 ci-après est donc 
aussi un réseau bayésien, et le calcul du score EVDI est possible pour chaque 
information. 
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FlG. 8.4 Rôle du gestionnaire d'afficlmge dans la décision en temps réel 


Dans la situation où l'ensemble des observations disponibles au ges- 
tionnaire d'affichage est noté £, l'utilité associée à un sous-ensemble d'in- 
formations affichées E est mesurée comme la somme des utilités de chaque 
action qui serait prise par l'opérateur, pondérées par la probabilité que 
l'opérateur prenne effectivement cette action, connaissant E. La formule as- 
sociée est la suivante : (on a introduit ici une variable intermédiaire qui est 
l'hypothèse que l'opérateur formule sur l'état du système, connaissant E). 

U(E,£:) = ^p(A i |E).^u[A i ,H j ,6t(E)].p(H ÿ jE) 
i j 

L'utilité apportée par l'affichage de l'information e est donc simplement 
calculée par la différence des utilités U(E U { e ), £) et U(E, £ ). Le compromis 
entre durée d'analyse et pertinence de l'action mise en œuvre est pris en 
compte dans le terme 6 t (E). 


8.3 Autres applications (par domaines) 

8.3.1 Industrie 

La société Ricoh a été l'une des pionnières de l'utilisation des réseaux 
bayésiens pour le dépannage. En 1997, le centre de recherche californien 
de la société Ricoh a développé un système d'assistance aux opérateurs 
chargés d'intervenir sur des copieurs en panne [HGJ97], L'approche uti- 
lisée pour construire ce système appelé Fixit est relativement originale, 
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puisqu'il s'agit d'un système autonome d'accès à la documentation tech- 
nique. En fonction des symptômes décrits par l'utilisateur, Fixit recherche 
les causes de pannes possibles, et présente directement à l'utilisateur un 
accès aux pages de la documentation concernée. Dans sa version initiale, 
comportant des modèles pour environ quarante appareils (fax, copieurs), 
ce système a été utilisé par plus de vingt-cinq opérateurs répartis entre le 
centre de communication de Lombard (Illinois) et Osaka. Les performances 
reportées pour Fixit indiquent que 45 % des appels sont traités en un temps 
moyen de deux minutes et demie, ce qui représente une augmentation de 
la productivité des opérateurs de près de 100 %. 



FlG. 8.5 Écran Fixit en cours de session (source Ricoh) 


La figure 8.5 montre une session de diagnostic en cours. Dans ce cas, 
le client au téléphone est supposé avoir déjà fourni des observations (FAC T 
LIST en bas à gauche de l'écran). Le réseau bayésien de la figure 8.6 ci- 
après est un extrait de la base de connaissances utilisée pour le fax modèle 
3200L. Les nœuds en gris clair représentent des symptômes, ceux qui ap- 
paraissent en gris foncé représentent des types de pannes. 
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FiG. 8.6 Extrait d'une base de connaissances Fixit (source Ricoh) 


Plus récemment, en 2001, la société Hugin a généralisé cette approche 
en développant une méthode de dépannage de systèmes complexes, basée 
sur l'utilisation des réseaux bayésiens. Cette démarche, baptisée SACSO 
(Systems for Automated Customer Support Operations) a été appliquée dans un 
premier temps au diagnostic de pannes des imprimantes en réseau [JKK + ], 
Le principe de la méthode est relativement classique dans le diagnostic as- 
sisté par ordinateur. On utilise l'information disponible pour identifier un 
ensemble de causes possibles, et les classer par vraisemblance. SACSO in- 
troduit trois types de nœuds dans le réseau bayésien : les nœuds de panne, 
les nœuds d'action, et les nœuds de question. 

Le comportement observé (par exemple, « impression trop pâle ») peut 
avoir plusieurs causes possibles, comme : 

• C i =Manque de toner 
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FlG. 8.7 Principe de In méthode SACSO : nœuds de panne, d'action et de question 


• C2=Distribution du toner défectueuse 

• C ^Mauvais paramétrage du pilote 

• etc. 

Plusieurs actions peuvent être envisagées telles que : 

• A -\=Changer le toner 

• A2 =Redémarrer l’imprimante 

• etc. 

L'efficacité de ces actions sur un problème possible est modélisée par 
la probabilité conditionnelle que l'action envisagée soit efficace, la panne 
étant donnée. Ainsi P (Ai | C3) = 0 indique que changer le toner a pro- 
bablement peu d'effet sur le paramétrage du pilote. Les nœuds de ques- 
tion fonctionnent de façon similaire, c'est-à-dire que la réponse attendue à 
la question est modélisée par la probabilité conditionnelle que la réponse 
à la question soit positive, la panne étant donnée. Par exemple, pour la 
question Qi=«La page de test s'imprime-t-elle correctement?», on aura 
P(Qi | Ci) = 0 , P(Qi | C2) = 0 . Une réponse positive à cette question 
permet donc d'éliminer les causes Ci et C2. 

Avec cette modélisation, on va à présent chercher à représenter la notion 
de stratégie de dépannage. Une stratégie peut se représenter par un arbre 
dont les nœuds sont de deux sortes : les nœuds de question/ action, et les 
nœuds de résultats. La figure 8.8 ci-après montre un exemple d'une telle 
stratégie. 

On commence par poser la question Q 1 . Si la réponse est non, on effec- 
tue l'action Ai . Si celle-ci ne résoud pas le problème, on effectue l'action A2. 
Si elle ne résoud pas non plus le problème, on est dans une situation d'échec 
(notée « ! ! »). Les autres branches de la stratégie se lisent de la même fa- 
çon. En affectant un coût à chaque question et action, et une pénalisation 
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à chaque situation d'échec, on peut estimer le coût moyen de réparation 
associé à une stratégie donnée. La résolution d'un problème de dépannage 
consiste donc à rechercher la stratégie optimale, c'est-à-dire celle qui mini- 
mise le coût moyen de réparation. 



FlG. 8.8 Un exemple de stratégie de dépannage 


Il a été démontré que cette recherche est un problème NP-complet. Le 
projet SACSO a permis de développer des heuristiques très performantes 
en utilisant une formalisation par réseau bayésien, tel que celui présenté à 
la figure 8.7 page précédente. Cette méthodologie a fait l'objet d'un déve- 
loppement spécifique, commercialisé aujourd'hui par Hugin (Hugin Advi- 
sor) et par la société danoise Dezide. 


Toujours dans le domaine de la maintenance. General Electric a utilisé 
des réseaux bayésiens pour l'analyse de performances de moteurs d'avion 
(gamme CF6) pendant leur révision générale. Le problème clé de la révi- 
sion des moteurs d'avion est de déterminer l'action de maintenance la plus 
appropriée pour ramener si nécessaire les performances du moteur dans le 
domaine défini par le constructeur. La difficulté est de relier les différentes 
mesures effectuées pour en déduire un problème potentiel, et donc l'action 
à effectuer. Ce système est aujourd'hui en service dans plusieurs ateliers de 
révision de GE. Le réseau utilisé compte 350 nœuds, dont 47 représentent 
des types de pannes, et 144 des observations. 

Rappelons également le développement, par la société danoise Hugin, 
du système de contrôle du véhicule sous-marin UUM pour la société Lock- 
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FlG. 8.9 Écran de l'application BATS développée avec SACSO pour HP. 


heed, que nous avons évoqué dans la section précédente. Ce travail a en- 
suite fait l'objet de nouveaux développements dans le cadre des program- 
mes de recherche de la Commission européenne avec le projet Advocate 
qui a permis de développer une architecture logicielle réutilisable pour le 
contrôle de véhicules sous-marins (en partenariat avec STN-Atlas et Ifre- 
mer). Une nouvelle génération de ce projet (Advocate-2) a été lancée en 
2001, généralisant la démarche des véhicules terrestres, avec des applica- 
tions dans le domaine spatial et pour le déplacement dans des environne- 
ments dangereux. 


8.3.2 Santé 

Dans le cadre du projet Human Genome du gouvernement américain, le 
National Health Institute et l'institut de technologie israélien Technion ont 
mis au point une méthode fondée sur l'utilisation des techniques d'infé- 
rences bayésiennes à la localisation des gènes, à partir de la localisation de 
gènes connus, et de l'analyse d'arbres généalogiques [BGS97], 

La localisation d'un gène peut être abordée en mesurant la distance 
entre ce gène et d'autres gènes dont l'emplacement est connu. L'idée gé- 
nérale à la base de ce projet est que si deux gènes sont proches, la probabi- 
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FlG. 8.10 Un véhicule autonome terrestre utilisé dans Advocate II 


lité qu'ils soient séparés durant le crossing-over est faible. La probabilité de 
séparation est donc une mesure de la distance entre deux gènes, qui peut 
être estimée en analysant l'arbre généalogique de familles où la maladie est 
présente. 

L'apport de ce projet a été d'intégrer les techniques d'inférences déve- 
loppées pour les réseaux bayésiens dans un contexte où le raisonnement 
probabiliste était déjà largement présent. Le résultat a été des gains de per- 
formances considérables (des vitesses d'analyse jusqu'à quarante fois su- 
périeures). 

De nombreuses applications ponctuelles des réseaux bayésiens dans le 
domaine de la médecine se développent, avec les précautions qui s'im- 
posent dans ce type d'application. Nous pouvons citer en particulier une 
application utilisant la technologie Hugin pour l'évaluation des patients en 
salle d'urgence (Dynasty). 


8.3.3 Informatique et télécommunications 

Dans le domaine du diagnostic de programmes informatiques, l'une 
des premières applications utilisant des réseaux bayésiens a été développée 
par l'université du Texas à Arlington, en collaboration avec le groupe DTAS 
de Microsoft, pour le diagnostic des erreurs d'exécution du système SABRE 
(l'un des systèmes de réservation aérienne les plus utilisés au monde). 

HD 

www.frenchpdf.com 



8.3. Autres applications (par domaines) 


Toujours dans ce domaine, le projet SERENE ( Safety and Risk Evaluation) 
regroupe, dans le cadre du programme de recherche européen Esprit, plu- 
sieurs partenaires cherchant à développer une méthodologie d'utilisation 
des réseaux bayésiens dans le cadre du contrôle qualité du logiciel, pour 
des systèmes critiques. Ce système met en œuvre à la fois des modèles d'ex- 
pertise pour le raisonnement qualitatif et un lien à des bases d'exemples. 
Le partenaire français du projet est EDF. 

Citons également la société canadienne Nortel, qui a développé un sys- 
tème d'analyse de la fiabilité du nouveau système ADS (ATM Distributed 
Switching). L'idée générale est de modéliser les dépendances entre les dif- 
férents aspects du logiciel (architecture, environnement de développement 
et environnement d'exécution) avant même sa réalisation, pour simuler la 
fiabilité du système d'ensemble. 

Dans le même domaine, Nokia a récemment mis au point un logiciel 
de diagnostic et de dépannage de réseaux de téléphone mobile, basé sur 
Hugin Explorer [BGH+02], 

Dans le domaine des agents informatiques, le groupe Microsoft /DTAS 
a travaillé depuis 1995 au développement d'interfaces adaptables aux uti- 
lisateurs pour les produits Microsoft. 

Le projet Lumière [HBH + 98], centré sur la construction et l'intégration 
de modèles bayésiens pour l'aide à l'utilisateur, a conduit à définir le pro- 
duit Office Assistant (le « trombone » d'Office), un système d'aide fondé 
sur les réseaux bayésiens et intégré à Office à partir de la version 97. Ce 
projet prend en compte un certain nombre d'aspects de la modélisation 
des utilisateurs, à partir d'informations recueillies pendant l'interaction de 
l'utilisateur avec le système, par exemple : 

• La recherche en vue d'accéder à une fonctionnalité précise, qui se ma- 
térialise par l'exploration des menus, le défilement de texte, et le dé- 
placement de la souris sur des régions non actives. 

• La réflexion, qui peut se manifester par une pause, ou une diminution 
des échanges avec le système. 

• Les effets indésirables, qui se manifestent par exemple par un accès à 
la touche Undo, l'ouverture et la fermeture rapide de certaines boîtes 
de dialogue. 

• L'inefficacité des actions, lorsque l'utilisateur n'utilise pas la séquence 
de touches la plus appropriée, ou les raccourcis disponibles. 

Le système Office Assistant comprend trois modules principaux. Un 
module de synthèse est chargé de transformer les actions de l'utilisateur 
en des observations pour le réseau bayésien, dont l'inférence produit des 
décisions, qui sont exécutées par le module de contrôle. L'une des originali- 
tés d'Office Assistant est le raisonnement temporel, qui nécessite d'utiliser 
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FlG. 8.11 Un extrait d'Office Assistant de Microsoft (projet Lumière) 


un formalisme spécifique de réseaux bayésiens (réseaux bayésiens dyna- 
miques). Le principe des assistants bayésiens a été également utilisé par 
Microsoft pour les systèmes de dépannage ( troubleshooters ) pour Windows 
2000, qui intègre plus de vingt systèmes de dépannage bayésiens. 

Plus récemment encore, les réseaux bayésiens ont trouvé une nouvelle 
application dans le domaine informatique : Y antispam, c'est-à-dire le filtrage 
des e-mails non sollicités. Le groupe DTAS de Microsoft a le premier étudié 
ce sujet, en allant plus loin que le simple filtrage, puisque les e-mails les 
plus pertinents étaient identifiés. Une solution appelée Mobile Manager a 
même été lancée en 2001. Cet outil a pour but d'identifier les messages 
les plus importants, et d'en informer le destinataire par une notification 
sur son téléphone mobile. De nombreux antispam utilisent aujourd'hui la 
technologie des réseaux bayésiens. 


8.3.4 Défense 

La société Mitre a développé un système de défense tactique embarqué 
pour les navires de guerre de la marine américaine. 

Ce système analyse les informations sur les missiles qui menacent le 
navire et décide des ripostes à adopter. Il permet en particulier de gérer les 
menaces multiples, qui peuvent générer des conflits sur l'affectation des 
armes. Il fonctionne en temps réel, et il a été montré que ses temps de ré- 
action étaient très inférieurs aux systèmes classiques, par exemple des mé- 
thodes de propagation par contrainte, ou de programmation dynamique. 
La décision du système est optimale dans 95 % des cas (résultat obtenu à 
partir de simulations). 

Une application des réseaux bayésiens à l'évaluation des menaces ter- 
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FlG. 8.12 Une session d'exécution de SSDS (source Mitre ) 


roristes et à l'analyse des réponses envisagées a été développée en 2001 
par la société américaine Digital Sandbox. Cette application a été mise en 
œuvre dans un outil appelé Site Profiler. Même si nous ne disposons pas 
d'éléments précis pour évaluer la pertinence de cette application, il nous 
a semblé intéressant de la mentionner. Les réseaux bayésiens sont en effet 
particulièrement adaptés à l'évaluation de risque dans un environnement 
hétérogène. Aucune autre technique de modélisation n'est aussi adaptée à 
la prise en compte des sources de données et de connaissances aussi di- 
verses. 

L'évaluation de la menace terroriste est une application particulière- 
ment complexe de fusion d'informations : 

• Le volume des données collectées par les services de renseignement 
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FlG. 8.13 Copie d'écran de Site Profiler (extrait du site dsandbox.com) 


est énorme. 

• Les sources de connaissances sont multiples : les informations sur les 
menaces proviennent des services de renseignement, la connaissance 
sur la vulnérabilité des installations ou des dégâts envisageables sont 
détenues par des experts du domaine. 

• La forme des informations est, là encore, multiple : jugements d'ex- 
perts, données historiques, résultats de modèles ou de simulations. 

• Enfin, la communication entre les différentes institutions n'est pas 
parfaite, et le récent rapport mettant en évidence les dysfonctionne- 
ments des échanges entre les diverses agences comme la CIA, la NSA, 
et le FBI, n'en est qu'un exemple. 


L'outil SiteProfiler est conçu sur la mise en relation de la cible et de la 
menace, au sein d'un outil appelé Risk Influence Netzvork (RIN). Un RIN est 
un réseau bayésien qui regroupe les éléments pouvant influer sur la per- 
ception d'un risque (intérêt ou accessibilité de la cible pour les terroristes, 
dommages estimés, adéquation de la menace à la cible, etc.). 
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Étude de cas n°l : gestion 
globale des risques d'une 
entreprise 


Depuis quelques années, on assiste à l'émergence et à l’institutionna- 
lisation d'un nouveau métier au sein des grandes entreprises. Cette fonc- 
tion, qui revêt différentes appellations ( risk manager, contrôleur des risques, 
chiefrisk officer, directeur des risques), est directement rattachée à la tête de 
l'entreprise et consiste principalement à apporter aux différentes parties 
prenantes de l'organisation (comité exécutif, actionnaires, clients, opinion 
publique, personnels, autorités de contrôle) une vision globale des risques 
auxquels celle-ci est confrontée. 

Le terme risque s'entend ici dans un sens très général et désigne tout 
événement potentiel susceptible de perturber la réalisation des objectifs 
de l'entreprise. Cette définition est aujourd'hui largement partagée et se 
trouve dans plusieurs normes [AS/99, CSA97, ISOOO] et ouvrages de réfé- 
rence [Bar98]. 


www.frenchpdf.com 


9.1. La méthode GLORIA 


9.1 La méthode GLORIA 


La mise en perspective de risques de natures différentes est un pro- 
blème délicat. Classiquement, un risque se caractérise par deux grandeurs : 
sa probabilité d'occurrence dans l'horizon de temps considéré et sa gravité. 

La notion de probabilité d'un événement est facile à appréhender intui- 
tivement et se formalise rigoureusement du point de vue mathématique. 
En revanche, le concept de gravité d'un risque pesant sur une entreprise 
s'avère difficile à définir, pour trois raisons essentielles : 

• Caractère multicritère du risque 

La réalisation d'un risque a diverses incidences : coûts directs et in- 
directs, chute du cours de l'action en Bourse, dégradation de l'image 
de l'entreprise, conséquences juridiques et réglementaires, stress ou 
démotivation du personnel. Il est parfois très délicat de quantifier ces 
incidences et a fortiori de les rapporter à une même échelle. 

• Incertitudes 

Certains effets du risque sont extrêmement difficiles à prévoir. 
Prenons l'exemple d'une usine chimique : la gravité du risque de pol- 
lution par nuage toxique peut être très différente selon l'intensité et 
l'orientation du vent au moment où se produit l'accident. Certaines 
des facettes du risque doivent donc nécessairement être modélisées à 
l'aide de variables aléatoires. 

• Interactions entre risques (effet domino) 

Il est fréquent qu'un risque provoque ou facilite l'occurrence d'autres 
risques. Reprenons l'exemple de l'usine chimique : la survenue d'un 
accident peut amener le gouvernement à imposer la fermeture d'au- 
tres installations appartenant à l'entreprise, décision qui peut à son 
tour entraîner d'autres conséquences défavorables. Mesurer rigou- 
reusement la gravité d'un risque impose donc d'intégrer à la gravité 
d'un risque Ri celles de tous les risques dont Ri favorise l'occurrence. 


EDF R&D, l'organisme de recherche et développement d'EDF, a récem- 
ment élaboré une méthode nommée GLORIA ( GLObal RIsk Assessment), 
qui répond à cette problématique d'évaluation et de hiérarchisation des 
risques. 

La méthode s'appuie sur une modélisation des risques par réseau bayé- 
sien, ainsi que sur une définition innovante de la gravité d'un risque. 

L'objet de ce chapitre est de présenter la méthode GLORIA, qui est ap- 
plicable à toute entreprise ou organisation. 
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9.2 Horizon de temps et objectifs de l'entreprise 


L'horizon de temps de l'analyse de risques d'une entreprise peut être 
de six mois à cinq ans. Il correspond à la période de temps que l'entreprise 
se donne pour atteindre les objectifs qui lui sont assignés. Au-delà de cinq 
ans, l'analyse serait du ressort de la prospective stratégique. 

Dans la démarche GLORIA, on considère comme risque tout événement 
susceptible de se produire dans l'horizon de temps défini et pouvant in- 
fluencer de manière significative la réalisation des objectifs de l'entreprise. 

A contrario, un événement ne remplissant pas ces deux conditions n'est 
pas, au sens de la démarche GLORIA, un risque. La détermination des ob- 
jectifs est donc une étape cruciale, qui constitue le socle de l'analyse de 
risques ; elle doit résulter d'une discussion approfondie avec les respon- 
sables de l'entreprise. 

Tous types d'objectifs, quantitatifs ou qualitatifs, peuvent être considé- 
rés. Nous donnons ci-après quelques exemples : 

• Objectifs financiers : chiffre d'affaires (CA), excédent brut d'exploi- 
tation (EBE), rentabilité des capitaux propres, ratio EBE /CA, ratio 
EBE/charges financières, ratio endettement /capitaux propres. 

• Objectifs techniques : satisfaction des clients, réussite d'un projet, 
obtention d'un label ou d'une certification, indicateurs qualité, objec- 
tifs de production, indicateurs environnementaux. 

• Objectifs d'image : notoriété, réputation de l'entreprise auprès de 
certaines parties prenantes. 

• Objectifs stratégiques : réalisation de plus de x % du chiffre d'af- 
faires dans un secteur donné, externalisation ou internalisation d'un 
processus, acquisition d'une participation dans une société. 


Dans la méthode GLORIA, on associe à chaque objectif une variable 
booléenne, égale à vrai si l'entreprise n'a pas réalisé l'objectif lorsque l'ho- 
rizon de temps est atteint. Si l'objectif est quantitatif (exemple : chiffre d'af- 
faires), cela nécessite l'introduction d'un seuil numérique au-delà ou en 
deçà duquel on considère que l'objectif n'est pas réalisé. 

On introduit de même une variable aléatoire booléenne Co, dite « varia- 
ble-cible », égale à vrai si et seulement si l'entreprise n'a pas réalisé ses 
objectifs lorsque l'horizon de temps est atteint. La variable Co s'exprime 
généralement comme une combinaison logique des variables représentant 
les objectifs. Il est toutefois possible d'attribuer à chaque objectif une pon- 
dération différente. 

Les variables aléatoires correspondant aux objectifs et à la variable cible 
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constituent la partie inférieure du réseau bayésien. La représentation des 
nœuds sous forme de cadrans, possible avec le logiciel Netica, est particu- 
lièrement expressive et adaptée à ces variables (figure 9.1 ). 


9.3 Construction du réseau bayésien 

9.3.1 Identification des variables 

Lorsque l'horizon de temps, les objectifs et la variable-cible sont déter- 
minés, la méthode consiste à compléter le réseau bayésien par l'ensemble 
des variables susceptibles d'influencer, directement ou indirectement, la 
réalisation des objectifs de l'entreprise. 

L'étape d'identification des variables s'effectue par brainstormings d'ex- 
perts possédant une expérience ou une connaissance du fonctionnement de 
l'entreprise. Les experts sont soit des acteurs de l'entreprise, soit des spé- 
cialistes des risques, tous tenus à la confidentialité. On pourra se référer 
utilement à [AyyOl] pour conduire les réunions de brainstorming et, dans 
certains cas, préférer les entretiens individuels avec les experts. 

Afin de tendre vers une certaine exhaustivité, il est utile de recenser 
l'ensemble des éléments avec lesquels l'entreprise est en interaction. Ces 
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éléments, appelés milieux extérieurs dans la terminologie de l'analyse fonc- 
tionnelle, se répartissent en cinq catégories ou sphères (figure 9.2 ) : 

• sphère environnementale : hydrosphère, géosphère, biosphère, at- 
mosphère, climat, paysage, activités humaines ; 

• sphère ressources : ressources physiques, humaines et information- 
nelles ; 

• sphère clientèle : clients de l'entreprise ; 

• sphère financière : actionnaires, créanciers, assureurs, investisseurs, 
filiales ; 

• sphère sociétale : lois, opinion publique, médias, organisations non 
gouvernementales (associations, syndicats, etc.), phénomènes de mal- 



FIG. 9.2 Les cinq sphères d'éléments interagissant avec l'entreprise 


Envisager systématiquement, pour chaque milieu extérieur, les agres- 
sions possibles à l'encontre de l'entreprise ou la dégradation de sa relation 
normale avec celle-ci permet d'identifier un grand nombre de risques. Bien 
qu'elle ne garantisse pas l'exhaustivité, cette méthode est un complément 
utile aux interrogations d'experts. 

Différents écueils peuvent se présenter lors de cette phase de produc- 
tion d'informations : foisonnement, experts exagérant l'importance de la 
catégorie de risques dont ils sont spécialistes, opinions divergentes, auto- 
censure. Si l'entreprise est de grande taille, la principale difficulté à éviter 
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est le foisonnement, c'est-à-dire la production d'une quantité trop impor- 
tante d'informations. Il est primordial de garder à l'esprit que la finalité 
n'est en aucun cas de recenser l'ensemble des facteurs ou événements pou- 
vant affecter négativement l'entreprise, mais seulement ceux qui auraient 
une incidence significative sur l'atteinte des objectifs explicitement identi- 
fiés lors de la première étape. 

Précisons également qu'il convient de décrire chaque variable X de ma- 
nière suffisamment précise pour que l'on puisse a posteriori (c'est-à-dire au 
terme de l'horizon de temps) dire sans ambiguïté laquelle des modalités xt 
de X s'est réalisée. 


9.3.2 Identification des relations entre variables 

L'étape suivante consiste à identifier les dépendances entre variables. 

L'expérience montre qu'un certain nombre de règles de bonne conduite 
doivent être respectées : 

• Nombre de relations. Afin d'assurer la lisibilité du modèle et pour se 
prémunir de la présence de grandes tables de probabilités, il convient 
de se limiter à un nombre de relations raisonnable. Par exemple, on 
peut choisir de considérer, autant que possible, quatre variables amont 
au maximum pour chaque variable. 

• Boucles. La structure du réseau bayésien ne doit pas comporter de 
boucle. Typiquement, un événement ne peut pas être à la fois la cause 
et la conséquence d'un autre événement, même indirectement. Il faut 
donc vérifier, à chaque fois qu'un lien entre deux variables est identi- 
fié, que celui-ci n'introduit pas de boucle dans le modèle. 

• Nombre de niveaux successifs. Lorsqu'une variable influence les ob- 
jectifs de l'entreprise à travers plus de quatre variables intermédiaires, 
cette influence indirecte est quantitativement négligeable par rapport 
à des liens plus directs (ce phénomène peut être qualifié d'effet de 
couche). Pour la simplicité du modèle, il est donc recommandé de 
ne pas introduire de chemins comportant un trop grand nombre de 
nœuds intermédiaires. 

• Bypass. Supposons qu'une variable A influence une variable B à la 
fois directement et par l'intermédiaire d'une variable C. Ce type de 
configuration (dérivation ou bypass) peut être remis en question : y 
a-t-il réellement une influence directe de A sur B ? Si c'est le cas, ne 
peut-on pas supprimer la variable C ? Poser ces questions aux experts 
permet, dans de nombreux cas, de limiter le nombre de relations et de 
simplifier la structure du réseau bayésien. 
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9.4 Lois de probabilité des variables 


Outre les variables et relations entre variables, le réseau bayésien doit 
contenir une description quantitative du comportement des variables, qui 
s'exprime à l'aide de probabilités. 


9.4.1 Variables sommets 

En raison de l'acyclicité du réseau bayésien, certaines variables n'ont 
pas de variables amont. Ces variables-sommets correspondent typiquement 
à des facteurs non maîtrisables par l'entreprise : phénomènes climatiques, 
macroéconomiques ou politiques, initiatives des concurrents ou des autori- 
tés. On introduit les probabilités de chaque modalité des variables sommets 
en interrogeant les experts. 


9.4.2 Variables intermédiaires 

On appelle variables intermédiaires les variables possédant une ou plu- 
sieurs variables amont. 

La dépendance d'une variable intermédiaire en fonction de ses variables 
amont peut s'exprimer soit par une équation numérique ou logique, qui est 
ensuite traduite en probabilités conditionnelles, soit, directement, par des 
probabilités conditionnelles. 

Dans ce dernier cas, il faut envisager toutes les combinaisons de va- 
leurs prises par les variables amont, ce qui peut se révéler fastidieux. Ainsi, 
dans l'exemple de la figure 9.3 ci-après, cela conduit les experts à expri- 
mer au minimum, si toutes les variables sont binaires, seize probabilités 
conditionnelles pour la variable aval R 5 . C'est pourquoi, s'il existe plus de 
quatre variables amont, il peut être préférable d'interroger les experts sur 
les intensités relatives des influences et de supprimer les liens éventuels 
correspondant à une influence du second ordre sur la variable aval. 

Toutefois, dans le cas où il est impossible de se limiter à quatre variables 
amont, une solution simple est celle du vote. Supposons par exemple qu'une 
variable R| ait huit variables amont, toutes de même importance (de sorte 
qu'il est impossible de négliger l'influence de certaines d'entre elles) et que 
toutes les variables amont aient une influence favorable sur R[. Il est alors 
naturel de considérer que Rt sera réalisé si au moins k des huit variables 
amont sont réalisées ; le choix de k étant à déterminer avec les experts. 
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FlG. 9.3 Variable à quatre variables amont 


9.4.3 Exemple 

La figure 9.4 ci-après représente un réseau bayésien correspondant à 
l'une des applications de la méthode GLORIA réalisées par EDF R&D. Ce 
modèle comprend 39 variables et 57 liens. Pour des raisons de confidentia- 
lité, les noms des variables ont été remplacés par des libellés muets. 


9.5 Résultats de la méthode GLORIA 

9.5.1 Probabilité de non-atteinte des objectifs 

La probabilité n de l'événement « non-réalisation des objectifs » (repré- 
senté par la variable cible) apparaît sur le réseau bayésien. Il est entendu 
que la valeur de n n'est pas, dans l'absolu, très significative. En revanche, 
elle sera utilisée comme référence pour évaluer la gravité des risques. Dans 
l'exemple de la figure 9.4 ci-après, la probabilité n est égale à 17 %. 


9.5.2 Simulation 

Le réseau bayésien est une représentation interactive, qui permet de ré- 
pondre aisément à des questions du type : quelles seraient les conséquences 
vraisemblables de la réalisation d'un événement X ? Dans quel sens et avec 
quelle ampleur la probabilité d'atteindre les objectifs serait-elle modifiée ? 

L'utilisation interactive du modèle permet, en quelques clics, de ré- 
pondre à ce type de question. L'analyse peut être prévisionnelle (on exa- 
mine l'impact d'un ou plusieurs événements) ou de type diagnostic (on 
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Incidence du risque 

Unité(s) de mesure 

Dégradation de l’image de l’entre- 
prise dans l’opinion publique 

Pourcentage d’individus déclarant 
avoir une image négative de l’entre- 
prise. 

Chute du cours de l’action 

Baisse de la valeur de l’action 
consécutive à la réalisation du 
risque. 

Accidents du travail 

Jours d’invalidité, nombre de bles- 
sés et de décès. 

Stress du personnel 

Pourcentage de collaborateurs se 
déclarant stressés. 

Condamnation de l’entreprise ou 
d’un de ses dirigeants 

Montant de l’amende, jours de pri- 
son ferme ou avec sursis. 


Tab. 9.1 Incidences d'un risque et unité(s) de mesure associée(s) 


suppose que l'entreprise échoue dans l'atteinte de ses objectifs et on exa- 
mine les causes les plus probables). 


9.5.3 Diagramme probabilité/gravité 

On déduit du réseau bayésien une représentation graphique des risques, 
sous la forme d'un diagramme probabilité/ gravité. 

La probabilité de chaque événement se lit directement sur le réseau 
bayésien (figure 9.4 page précédente). 

Il reste à définir la notion de gravité d'un événement. Comme cela a 
été évoqué en introduction, la gravité d'un risque peut se mesurer selon 
de multiples critères, qu'il est difficile de rapporter à une même échelle 
(tableau 9.1). 

Dans le but de résoudre ce problème d'évaluation multicritère, la dé- 
marche GLORIA introduit une définition originale de la gravité qui intègre 
toutes les conséquences d'un risque : directes et indirectes, favorables ou 
défavorables, chiffrables en termes financiers ou non. Cette définition, pro- 
babiliste, est inspirée du concept de facteur d'importance utilisé en sûreté 
de fonctionnement. 

Un facteur d'importance est un indicateur qui mesure la contribution 
d'un composant au risque de panne d'un système. L'analogie avec la mo- 
délisation proposée ici est naturelle : les pannes des composants corres- 
pondent à certaines modalités des variables représentées dans le réseau 
bayésien; la panne du système à la non-atteinte des objectifs de l'entre- 
prise. En utilisant la théorie des facteurs d'importance, on peut associer à 
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chaque modalité Xt d'une variable X du réseau bayésien un indicateur noté 
g(X = xt), qui caractérise la gravité de l'événement X = xt. 

Ainsi, dans la méthode GLORIA, la gravité d'un événement est définie 
comme la probabilité conditionnelle d'échec dans l'atteinte des objectifs, en 
cas de réalisation de l'événement : 

g(X = xO = P(C 0 /X = xt) (9.1) 



FiG. 9.5 Diagramme probabilité/gravité 


Prenons l'exemple de l'événement Ru Dans le réseau bayésien de la 
figure 9.4 page 239, la gravité de Ri, c'est-à-dire la probabilité de non- 
réalisation des objectifs en cas de réalisation de Ri, est égale à 47,3 %. 

On peut observer que la définition ( 9.1) de la gravité d'un risque résulte 
directement de la définition d'un risque : un risque est un événement qui 
perturbe l'atteinte des objectifs ; par conséquent, un risque est d'autant plus 
grave qu'il perturbe fortement l'atteinte des objectifs. 
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On note que si g (X = x0 est inférieur à la probabilité n de non-réalisation 
des objectifs, l'événement X = xi est une opportunité pour l'entreprise, 
puisque son occurrence favorise l'atteinte des objectifs. Dans la démarche 
GLORIA, la notion de risque englobe ainsi les événements favorables à 
l'entreprise. Le terme de menace peut être réservé pour désigner les évé- 
nements défavorables, c'est-à-dire de gravité supérieure à 7t. 

Lorsque les gravités sont calculées, on est en mesure de positionner les 
risques sur un diagramme probabilité/gravité. La figure 9.5 page précé- 
dente représente ainsi les événements « Ri = vrai », correspondant aux 33 
variables R| du réseau bayésien de la figure 9.4 page 239. Dans cet exemple, 
chaque événement « Rt = vrai » constitue une menace pour l'entreprise, 
puisque sa gravité est supérieure à 7t (17 %). 

Le diagramme probabilité/ gravité est parfois appelé carte des risques. 
Il constitue à la fois une représentation très parlante des risques et un outil 
d'aide à la décision pour définir une stratégie de réduction des risques. Les 
deux approches possibles pour réduire un risque sont la prévention (réduc- 
tion de la probabilité) et la protection (réduction de la gravité). 

Bien entendu, une attention particulière doit être portée sur les risques 
situés dans la partie supérieure droite du diagramme, car ceux-ci sont à la 
fois probables et pénalisants pour l'entreprise. A contrario, la présence de 
risques à proximité de l'origine du diagramme peut signifier que l'entre- 
prise consacre trop de moyens à leur traitement. Il peut alors être judicieux 
de réallouer une partie de ces moyens à la réduction des risques les plus 
importants. 


9.5.4 Criticité des risques 

La criticité de l'événement X = xi est définie classiquement comme le 
produit de sa probabilité et de sa gravité. 

D'après la définition 9.1 page précédente de la gravité, la criticité s'in- 
terprète comme la probabilité que l'événement X = xt se réalise et que 
l'entreprise échoue dans l'atteinte de ses objectifs : 

c(X = xt) =P(X=Xi) x g(X = xt) 

= P(X = Xi) x P(C 0 /X = Xi) (9.2) 

= P(X = xt et Co). 

La définition de la gravité d'un événement au sens de la démarche 
GLORIA aboutit ainsi à une évaluation très intuitive de la criticité d'un 
risque. Un risque est d'autant plus critique que la probabilité qu'il se réa- 
lise et qu'il compromette l'atteinte des objectifs de l'entreprise est élevée. 
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La criticité permet de mesurer chaque risque par un seul indicateur nu- 
mérique et par suite, de hiérarchiser les risques. Ainsi, la figure 9.6 repré- 
sente la criticité des quinze risques majeurs de notre exemple. 



FiG. 9.6 Exemple d'utilisation de la méthode GLORIA : criticité des quinze risques ma- 
jeurs 
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Chapitre 10 


Étude de cas n°2 : modélisation 
et quantification des risques 
opérationnels 


La gestion globale des risques, telle qu'elle a été présentée au chapitre 
précédent, répond à une préoccupation croissante des entreprises d'aug- 
menter leurs chances de survie dans toutes les circonstances défavorables 
qui pourraient se présenter. 

Cette démarche a surtout pour but d'identifier les risques, et, comme 
on l'a vu plus haut, de les prioriser, en fonction de leur impact estimé sur 
les objectifs de l'entreprise. 

Dans certains secteurs de l'activité économique, cette préoccupation a 
déjà dépassé le stade de la bonne gestion, pour devenir une contrainte ré- 
glementaire. Dans le même temps, l'exigence s'est renforcée, passant de la 
nécessité de cartographier et d'organiser les risques, à une exigence quan- 
titative. 

Le nouvel accord de Bâle (Bâle II), préparé à partir de 1998 par le Co- 
mité de Bâle, définit un dispositif prudentiel destiné à mieux appréhender 
les risques bancaires et principalement le risque de crédit ou de contre- 
partie et les exigences en fonds propres. Cet accord cherche en particulier à 
augmenter la cohérence entre les fonds propres et les risques réellement en- 
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courus par les établissements financiers. C'est aux termes de cet accord que 
les établissements concernés sont désormais tenus d'évaluer quantitative- 
ment leurs risques opérationnels. Les risques couverts par la dénomination 
risque opérationnel, au sens de Bâle II, sont très divers, puisqu'ils vont de la 
fraude interne à la possibilité d'une pandémie, en passant par la défaillance 
des systèmes d'information. 

Sans entrer dans les détails de cette réglementation, nous pouvons en 
résumer l'exigence quantitative. 

Bâle II exige que tout événement ou combinaison d'événements qui a 
plus d'une chance sur mille de frapper un établissement bancaire dans l'an- 
née soit couvert par des réserves de fonds propres adéquates. Concrète- 
ment, cela signifie qu'une banque ne doit pas avoir plus d'une « chance » 
sur mille d'être dépassée, financièrement, par des événements de risque. 
La première réponse adaptée à cette exigence est la mise en place d'un pro- 
cessus de gestion des connaissances pour identifier les risques. 

Mais l'identification et la qualification des risques n'est pas suffisante, 
puisqu'une quantification précise ou du moins honnête de leur probabilité 
et de leur gravité est indispensable pour permettre la détermination des 
fonds propres permettant d'y répondre, dans 99,9 % des futurs possibles à 
un an, selon l'exigence de Bâle IL 

Dans ce qui suit et qui est extrait et adapté d'un article paru dans le 
numéro spécial consacré aux risques opérationnels de la Revue d'économie 
financière, nous montrons comment l'utilisation des réseaux bayésiens peut 
contribuer à satisfaire cette exigence quantitative de Bâle II, et, au-delà, à la 
modélisation et à la quantification des risques en général. 


10.1 Gestion des risques, incertitude et connaissance 

L'analyse des catastrophes récentes met en évidence trois points-clés de 
la gestion des risques. 

Premièrement, les catastrophes frappent là où on ne les attend pas. 

Deuxièmement, il est souvent inexact de dire que l'on ne s'y attendait 
pas, mais plus juste de dire qu'on refusait de s'y attendre. 

Troisièmement, la tendance naturelle à ne se préparer qu'à ce qui est 
déjà arrivé nous laisse impréparés à ce qui va arriver, ou qui arrive. 

Les rapports de la CIA sur la préparation du 11 septembre, les rapports 
américains sur les risques environnementaux majeurs mettant au premier 
plan la vulnérabilité de la Floride aux cyclones, et dont le public a décou- 
vert l'existence après Katrina, confirment cette impression. 
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Une politique de gestion des risques ne doit négliger aucun des aspects 
du problème. 

Ce qui est arrivé peut survenir de nouveau. Il est juste de maintenir sa 
vigilance. 

Ce qui n'est jamais arrivé peut arriver ou arrivera. Il est nécessaire de 
l'analyser en fonction des connaissances dont on dispose. 

L'approche bayésienne des probabilités peut apporter un éclairage in- 
téressant à ce problème. La contribution essentielle de Thomas Bayes à la 
pensée scientifique a été de formuler clairement le principe de condition- 
nement de l'incertitude à l'information. L'incertitude est conditionnelle à 
l'information, ou, autrement dit, la perception des risques est condition- 
nelle à la connaissance. 

Selon cette approche, la notion de probabilité pure n'a pas de sens ; une 
probabilité n'est définie que compte tenu d'un contexte d'information. Dit 
simplement, « ce qui peut arriver » ne veut rien dire. On ne peut évaluer 
que « ce que je crois possible » . Et ce que je sais conditionne ce que je crois. 

Cette position est, nous semble-t-il, parfaitement adaptée à une approche 
ouverte de la gestion des risques. L'avenir est « ce que je crois possible » . Et 
« ce que je sais » n'est pas seulement ce qui est déjà arrivé, mais également 
toutes les connaissances disponibles sur les organisations et leurs vulnéra- 
bilités. La gestion des risques commence par la gestion des connaissances. 

La volonté du régulateur d'améliorer la stabilité du système bancaire, 
en prenant en compte les risques opérationnels s'inscrit bien selon nous 
dans cette démarche de connaissance. Les exigences liées à la fonction de 
gestion des risques opérationnels, notamment la mise en place d'un dispo- 
sitif de suivi détaillé des sinistres, la prise en compte des données externes 
(ce qui est arrivé à l'extérieur), et l'analyse de scénarios, permettent en prin- 
cipe à un établissement bancaire de ne pas baser son analyse des risques 
uniquement sur son historique propre des sinistres. 


10.2 Présentation de la démarche 

Pour les établissements bancaires français ayant choisi de répondre à 
l'exigence de Bâle II en utilisant des modèles internes, deux modes d'éva- 
luation des fonds propres sont proposés aux établissements. L'approche 
standard est basée sur l'application d'un ratio (entre 12 et 18 %) au pro- 
duit net bancaire, c'est-à-dire à l'équivalent de la valeur ajoutée de l'éta- 
blissement. L'approche avancée permet à l'établissement de calculer lui- 
même son allocation de fonds propres, sous réserve de produire des mo- 
dèles quantitatifs. En général, l'approche avancée est avantageuse à moyen 



www.frenchpdf.com 


10.2. Présentation de la démarche 

terme pour les grands établissements, car elle permet une analyse précise 
des risques, et donc l'identification de leviers de réduction. 

Plusieurs d'entre eux ont choisi de modéliser les risques les plus signi- 
ficatifs en utilisant des réseaux bayésiens. 

Le modèle que nous présentons ci-après, dit modèle « eXposition, Sur- 
venance, Gravité » , ou modèle XSG, a été mis en œuvre par ces différents 
établissements. 

Cette méthode a été initialement conçue pour un établissement qui avait 
déjà mis en place une démarche de connaissance d'ensemble, et en parti- 
culier, qui, au-delà de l'inventaire et de la qualification des sinistres, avait 
étudié l'ensemble des vulnérabilités de l'établissement et identifié des scé- 
narios de sinistres, survenus, ou non survenus. 

La doctrine de cette démarche de modélisation des risques opération- 
nels peut se résumer en deux phrases. 


Ce qui est déjà arrivé assez souvent se reproduira dans des conditions équi- 
valentes, en l'absence de mesures spécifiques de prévention. Pour ce qui n’est 
jamais arrivé, ou très rarement, nous devons comprendre comment cela peut 
arriver, et si cela peut avoir des conséquences graves, en l’absence de mesures 
spécifiques de protection. 


Si on l'interprète dans l'espace du risque représenté de façon classique 
sur un plan Gravité/Fréquence, cette doctrine peut s'exprimer comme suit. 

Les pertes potentielles dues à des risques de gravité importante et de 
fréquence faible ou nulle sont abordées par l'élaboration de scénarios pro- 
babilisés à partir de modèles de causalités. 

Cette approche est étendue aux risques de fréquence dont l'impact est 
élevé, et pour lesquels une étude approfondie des évolutions possibles du 
risque est nécessaire (prévention et protection). 

Les pertes potentielles dues à des risques de gravité faible et de fré- 
quence élevée ou moyenne sont abordées par des modèles basés sur les 
données. Il s'agit de la démarche de LDA, ou Loss Distribution Approach, 
dont le principe est de modéliser les pertes constatées par une loi statis- 
tique, et d'en déduire des pertes possibles par extrapolation. 

Nous présentons maintenant dans le détail cette démarche de modélisa- 
tion, sans insister sur la modélisation des risques de fréquences stables par 
la LDA car cette technique est aujourd'hui courante et n'est donc pas spéci- 
fique de notre approche. Nous présentons tout d'abord la méthodologie de 
qualification, de sélection, et de quantification des scénarios de risque. Puis 
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FlG. 10.1 Approches de modélisation pour les différents quadrants du plan fréquence- 
gravité 


nous expliquons le principe d'intégration, permettant de produire une va- 
lorisation des fonds propres au titre des risques opérationnels dans chaque 
case de la matrice de Bâle, à partir des modèles de scénario et des données 
de pertes historiques. 


10.3 Modélisation des scénarios de risque 

10.3.1 Présentation de la méthode 
► Objectifs 

La modélisation des risques opérationnels doit satisfaire trois objectifs 
d'exigence croissante. 

Le premier objectif est de calculer les fonds propres au titre des risques 
opérationnels pour l'année à venir avec une probabilité inférieure à 99,9 %. 
La banque doit fournir un chiffre global et un chiffre par ligne de métier 
et type d'événement. Chacun de ces chiffres doit pouvoir être justifié par 
rapport aux hypothèses sous-jacentes et au principe retenu pour passer des 
hypothèses aux fonds propres. Ce chiffre, qui détermine les fonds propres 
à mettre en place, présente évidemment une grande importance pour la 
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banque mais ne saurait constituer une fin en soi ; il doit plutôt être consi- 
déré comme une retombée du projet Risques opérationnels. 

Le deuxième objectif est de prévoir. En premier lieu, il s'agit de prévoir 
les pertes futures et non de reproduire les pertes passées. Le contexte — 
économique, social, réglementaire, climatique — change, les objectifs stra- 
tégiques et commerciaux changent, les risques changent donc aussi. Les 
pertes de l'année passée ne sont pas celles de l'année à venir. Nous devons 
être capables de mesurer l'impact d'une évolution du contexte ou des ob- 
jectifs de la banque sur les pertes potentielles. 

Le troisième objectif est de comprendre les raisons des pertes poten- 
tielles et avérées. Identifier les processus générateurs de risque, les leviers 
de prévention et de protection, les facteurs d'aggravation et les interdé- 
pendances entre les risques constituent les conditions nécessaires de la ré- 
duction des risques. Les modèles devront donc intégrer cette connaissance 
pour aider à la définition des mesures de réduction. 

► Difficultés 

Ne le cachons pas, modéliser les risques opérationnels est une tâche 
ardue. Les risques opérationnels couvrent des domaines très variés et pré- 
sentent des profils de réalisation très différents. 

Les risques étudiés vont de la fraude aux risques informatiques en pas- 
sant par les catastrophes naturelles, les risques juridiques, les erreurs de 
saisie, etc. De par leur nature hétérogène, ces risques interdisent d'envi- 
sager un modèle global et unique. Chacun doit être appréhendé par des 
modèles spécifiques. 

De plus, pour une même classe de risque, la gravité des sinistres peut 
présenter de grandes différences. Ainsi, si on s'intéresse à la fraude ex- 
terne sur les cartes bancaires, ni les modes opératoires, ni les enjeux ne 
sont comparables selon qu'on considère un vol isolé ou un trafic organisé. 
Dès lors, fusionner de tels risques au sein d'un même modèle revient bien 
souvent à ignorer, volontairement ou involontairement, les processus qui 
engendrent ces risques et conduit inévitablement à opérer un grand écart 
pour réconcilier artificiellement des phénomènes sans rapport. Une telle 
approche, même si elle conduisait au mieux à des modèles mathématiques 
satisfaisants par leur calcul des fonds propres, reste à nos yeux totalement 
incompatible avec une compréhension des risques de l'établissement. 

Comme nous l'avons présenté ci-dessus, il est d'usage de représenter 
les risques sur un plan à deux dimensions, la fréquence et la gravité. Cette 
représentation fait apparaître quatre familles de risque. Les risques dits de 
fréquence sont les risques survenant souvent mais dont la gravité est faible. 
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Les risques dits de gravité sont les risques survenant rarement mais dont 
la gravité est élevée. Les risques critiques dont la fréquence et la gravité 
sont élevées, ne doivent pas être considérés car les établissements qui les 
supporteraient n'existent déjà plus... Les risques de fréquence faible et de 
gravité faible ne nous intéressent pas non plus car ils engendrent des pertes 
négligeables. 

Seuls les risques de fréquence et les risques de gravité feront donc l'ob- 
jet d'une modélisation. Là encore, même s'ils appartiennent à la même 
classe de risque (par exemple la fraude externe), un risque de fréquence 
et un risque de gravité ne doivent pas faire l'objet d'un même modèle. Seul 
un artifice mathématique pourrait réconcilier la distribution d'un risque 
grave et celle d'un risque fréquent. 

► Connaissance ou données 

L'une des approches classiques de la quantification des risques opéra- 
tionnels est l'utilisation d'un modèle statistique des pertes. Il s'agit d'ajus- 
ter des lois statistiques sur des données de pertes. Cette approche est appe- 
lée LDA, pour Loss Distribution Approach. 

Le principe de la LDA est (1) de supposer que le nombre moyen de 
sinistres observés en une année sera reconduit les années suivantes avec un 
certain aléa (représenté en général par une distribution de Poisson), et (2) 
d'ajuster une distribution théorique sur les montants des sinistres observés. 

Prise à la lettre, cette démarche signifie que le seul aléa frappant les 
pertes réside dans le nombre de sinistres et dans leur arrangement (une an- 
née défavorable peut subir plusieurs sinistres importants). Autrement dit, 
il n'y aurait d'aléa que dans les réalisations, et non dans la nature des scéna- 
rios de risque. Selon ce principe, et pour fixer les idées, un tsunami ne serait 
alors qu'une « improbable grosse vague ». Même si l'ajustement d'une dis- 
tribution théorique sur la hauteur des vagues permet mathématiquement 
de calculer la probabilité d'une vague de 20 ou 30 mètres de haut, cela ne 
rend pas compte du changement de nature du phénomène : les tsunamis 
ne sont pas causés par le même processus que les vagues. 

Dans le domaine des risques opérationnels, les données de pertes sont 
inexistantes ou quasi inexistantes pour les risques de gravité par définition 
même de ces derniers. Pour les risques de fréquence, même si des données 
de perte sont disponibles, elles ne concernent que le passé et n'intègrent 
pas les éventuels changements de contexte ou d'objectifs de la banque. Un 
modèle fondé sur les données de perte n'est pas un modèle de risque mais 
un modèle des sinistres. 

La connaissance des experts sur les processus générateurs de risque, qui 
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est indispensable pour modéliser les risques de gravité, du fait du manque 
de données historiques, le demeure pour les risques de fréquence dès lors 
que le contexte est instable car il est alors indispensable de prévoir l'impact 
des facteurs contextuels sur la perte opérationnelle. 

Toute approche qui n'est pas fondée sur la connaissance est donc in- 
capable d'appréhender les pertes extrêmes et les évolutions contextuelles 
et conduit nécessairement à user d'artifices mathématiques pour réconci- 
lier des données qui ont été fusionnées par manque de compréhension des 
processus générateurs de risque. 


La modélisation des risques opérationnels est un problème de modélisation des 
connaissances et non un problème de modélisation des données. 


Les données ne constituent qu'un élément alimentant la connaissance, 
l'élément fondamental en étant l'expertise humaine. La connaissance per- 
met à la fois de réduire notre incertitude et nos risques. Les comprenant 
mieux, nous les voyons mieux et les contrôlons mieux. 

► Un processus de gestion des connaissances 

La modélisation des risques opérationnels doit être envisagée comme 
un processus de gestion des connaissances assurant la transformation conti- 
nue de l'expertise humaine en un modèle probabiliste. Le modèle nous per- 
met de calculer la distribution des pertes potentielles et les fonds propres 
couvrant les pertes à 99,9 %, d'identifier les leviers de réduction et d'ef- 
fectuer des analyses d'impact des évolutions contextuelles et des objectifs 
stratégiques et commerciaux. 

Le processus est continu afin d'éviter tout décrochage entre l'expertise 
et le modèle. Le modèle doit rester contrôlable et critiquable par les experts, 
aussi bien qu'auditable par les autorités de régulation. Dans un souci de 
transparence, chacune des étapes du processus doit être documentée. 

Ce processus est constitué de deux grandes étapes : la définition et la 
quantification des scénarios. Nous détaillerons le contenu de ces étapes ulté- 
rieurement, mais il est essentiel de retenir que la modélisation probabiliste 
qui relève de la deuxième étape n'a de sens que si elle repose sur le socle 
solide des scénarios définis en première étape. 

Les trois acteurs du processus sont l'expert, le risk manager et le modé- 
lisateur. 

L'expert est celui qui détient la connaissance technique sur un domaine 
spécifique ou un métier. Seront par exemple consultés les experts de la 
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modélisateur 



FlG. 10.2 Les trois acteurs du processus de modélisation des risques opérationnels 


fraude monétique, les spécialistes des réseaux informatiques, les juristes 
etc. L'expert n'est pas a priori nécessairement sensible à la problématique 
de gestion des risques. 

Le risk manager possède une double compétence; il connaît les mé- 
tiers de la banque, au moins ceux qui relèvent de son périmètre, et maî- 
trise évidemment les enjeux de la gestion des risques. Il est responsable de 
la phase de définition des scénarios durant laquelle il consulte les experts 
afin d'identifier et de sélectionner les risques pertinents. Il est le pivot du 
processus de modélisation des risques. 

Le modélisateur, quant à lui, est responsable de la phase de quantifica- 
tion des risques. Même si sa compétence principale est la modélisation de 
la connaissance, il est illusoire de confier la quantification à des modélisa- 
teurs qui n'ont pas à la fois une connaissance, fût-elle générale, des métiers 
de la banque et de la finance et une connaissance approfondie de la gestion 
des risques. 

La première phase du processus ne fait intervenir que le risk manager 
et l'expert alors que la deuxième fait intervenir principalement le risk ma- 
nager et le modélisateur, même si l'expert peut être questionné par le mo- 
délisateur pour des questions délicates. Le recouvrement des compétences 
des trois acteurs assure la continuité du processus. 


10.3.2 Le modèle Exposition - Survenance - Gravité (XSG) 

Comme nous l'avons indiqué, les risques à envisager sont nombreux, 
hétérogènes, et ont des profils de réalisation très différents. Il est donc im- 
portant de définir un formalisme unifié qui permettra de définir les risques 
durant la phase de définition des scénarios et de les quantifier durant la 
phase de quantification des scénarios. 

Tel est l'objet du modèle Exposition - Survenance - Gravité (XSG) que 
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nous présentons dans ce chapitre. 

Le modèle XSG définit précisément la notion de risque supporté par la 
banque ainsi que la forme quantifiée du risque. 

► La vulnérabilité 

Une banque est exposée à des risques si elle présente des vulnérabi- 
lités. La vulnérabilité est le concept central de la démarche ici présentée. 
Cette notion est discutée en détail dans [GGL04], nous en donnons ici la 
définition et l'illustrons par des exemples. 

Une vulnérabilité est définie par trois éléments : 

• Le péril, ou cause, est la menace qui pèse sur la banque. Exemples : 
la fraude, les erreurs de saisie, les catastrophes naturelles, l'épidémie, 
etc. 

• L'objet, ou ressource, est l'entité de la banque qui peut être frappée 
par un péril. Les objets peuvent être matériels, immatériels, des res- 
sources humaines, un chiffre d'exploitation etc. 

• La conséquence est l'impact de la survenance d'un péril sur un objet. 
Nous nous limitons ici à la prise en compte de l'impact financier. 

Il n'y a pas de vulnérabilité lorsqu'un péril peut frapper un objet sans 
conséquences financières. Par exemple, si un bâtiment conçu pour résister à 
des séismes de niveau 5 sur l'échelle de Richter est construit dans une ville 
où le séisme maximal envisageable est de niveau 3 sur cette même échelle, 
aucune vulnérabilité n'est à considérer même si le péril « séisme » existe 
sur l'objet « bâtiment » car aucune conséquence n'est à craindre. 

Cette définition étant donnée, nous pouvons préciser le sens des notions 
de risque, de sinistre et de scénario telles que nous les envisageons : 

• Le risque est la possibilité qu'un péril frappe un objet. 

• Le sinistre désigne la survenance avérée d'un péril sur un objet. 

• Le scénario décrit comment se matérialise une vulnérabilité. Chaque 
scénario définit une vulnérabilité unique. Inversement chaque vulné- 
rabilité est associée à un unique scénario. Modéliser les scénarios est 
donc strictement équivalent à modéliser les vulnérabilités. 

► Exposition - Survenance - Gravité 

La vulnérabilité est le pilier de la phase de définition des scénarios, le 
triplet XSG est le pilier de la phase de quantification des scénarios et consti- 
tue la transposition quantifiée de la vulnérabilité. 

Les trois composantes du modèle XSG sont : 
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• Exposition (X) 

C'est le nombre d'objets indépendants exposés à un péril donné du- 
rant l'année. L'indépendance des objets est définie par rapport au 
péril. Deux vulnérabilités proches peuvent avoir des mesures d'ex- 
position différentes. Ainsi, la modélisation du risque de fraude sur 
carte bancaire est différente suivant qu'il s'agit de fraude externe ou 
interne. Pour la fraude externe, la ressource en risque est une carte 
puisque chacune peut être falsifiée de façon indépendante. Le nombre 
de cartes est donc la bonne mesure de l'exposition. Pour la fraude in- 
terne en revanche, un seul employé peut dupliquer des milliers de 
cartes : la ressource exposée est l'employé, et non la carte. 

• Survenance (S) 

C'est la survenance d'un péril sur un objet exposé donné dans l'année 
quantifiée par sa probabilité. 

• Gravité (G) 

C'est le coût consécutif à la survenance du péril sur l'objet exposé. 

Le triplet {Exposition, Survenance, Gravité} est l'exacte transposition du 
triplet {Objet, Péril, Conséquence}. La continuité du processus de modéli- 
sation des connaissances est ainsi assurée. Le modèle XSG désigne à la fois 
la vulnérabilité et sa forme quantifiée. 

Dès lors, les deux étapes du processus de modélisation peuvent être 
reformulées : 

• définir les scénarios = Identifier les vulnérabilités ; 

• quantifier les scénarios = Quantifier l'exposition, la survenance et la 
gravité. 


► Utilisation des réseaux bayésiens 

L'exposition, la survenance et la gravité sont les variables aléatoires qui 
définissent une vulnérabilité. Etablir leur distribution conditionnelle est la 
première étape en vue de la quantification des risques. Dans la pratique, 
l'utilisation des réseaux bayésiens est bien adaptée à cette tâche. 

Les trois variables aléatoires d'exposition, de survenance, et de gravité 
peuvent être considérées de façon inconditionnelle : il s'agit de la version 
minimale d'un modèle XSG. Cependant, dans la pratique, la distribution 
de chacune des ces trois variables peut être modifiée par certains facteurs, 
appelés déterminants. Il suffit d'interviewer des experts au sujet d'une vul- 
nérabilité donnée pour le comprendre. 

La première réponse à « Comment mesurer l'exposition ? », « Quelle est 
la probabilité d'un sinistre de tel type ? », ou « Combien coûtera un sinistre 
s'il survient » sera en général « Cela dépend ! » . 
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Tout l'art du modélisateur consiste alors à retourner la question à l'ex- 
pert, pour identifier de quoi dépendent ces trois variables aléatoires. 

Par exemple, l'exposition peut dépendre des prévisions d'évolution d'ac- 
tivité. Cet indicateur peut être particulièrement significatif pour des activi- 
tés en forte croissance comme la banque à distance. 

La survenance, par exemple dans le domaine de la fraude, peut dé- 
pendre du niveau hiérarchique ou de l'âge du salarié, comme le montrent 
certaines études. 

Enfin, la gravité dépendra des circonstances favorables ou défavorables, 
et notamment du moment où survient le sinistre. Une panne informatique 
aura des conséquences bien plus lourdes pour un établissement si elle se 
produit lors des dates mensuelles de paiement de la TVA ou des URSSAF, 
que si elle se produit un dimanche ou un jour férié, encore que certains 
jours fériés, correspondant à une très forte activité monétique, pourraient 
aussi entraîner des conséquences graves. 

L'utilisation d'un réseau bayésien permet donc de représenter sur le 
même graphe les facteurs influençant exposition, survenance ou gravité. 


► Avantages de l'utilisation des réseaux bayésiens 

A la fois outil de représentation intuitive des connaissances, et machine 
à calculer des probabilités conditionnelles, les réseaux bayésiens présentent 
les avantages suivants pour la modélisation des risques opérationnels : 

• La connaissance des experts n'est pas absorbée dans une boîte noire, 
elle est retranscrite directement. 

• Les modèles sont donc contrôlables par les experts et auditables par 
les autorités de régulation. 

• Les probabilités sont toujours le résultat de calculs simples (comp- 
tages) ou de l'expertise, renforçant ainsi la transparence des calculs 
effectués. 

• Les réseaux bayésiens peuvent représenter l'ensemble des facteurs 
qui conditionnent les différentes composantes d'une vulnérabilité et 
permettront ainsi d'identifier les leviers de réduction et de quantifier 
leur importance. 

• Les réseaux relatifs à plusieurs vulnérabilités peuvent être intercon- 
nectés afin de mesurer les corrélations qui existent entre elles. 

• Ils proposent, pour la représentation des connaissances, un forma- 
lisme commun qui sera appliqué à tous les types de risque. 

• Les trois objectifs que nous avons formulés pour la modélisation des 
risques - calculer, prévoir, comprendre - sont accessibles. 
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Évidemment, leur mise en œuvre implique la disponibilité des experts 
mais cette disponibilité qui pourrait être un obstacle pratique dans certains 
cas est pour nous une condition essentielle du succès de la modélisation 
des risques opérationnels. 

10.3.3 Définition des scénarios 

Nous présentons dans ce chapitre la première phase de la modélisation 
des risques opérationnels qu'est la définition des scénarios. Cette phase ne 
relevant pas de la quantification, nous nous contentons d'en survoler les 
étapes. 

La phase de définition des scénarios comprend trois étapes : 

® identification des vulnérabilités ; 

® sélection des vulnérabilités ; 

© étude détaillée des vulnérabilités. 

Les acteurs concernés durant cette phase sont le risk manager et l'ex- 
pert qui vont recueillir toute la connaissance nécessaire pour la phase de 
quantification. 

► Identification des vulnérabilités 

L'objectif de cette étape est de lister tous les risques, c'est-à-dire tous 
les couples {Péril, Objet}, qui peuvent affecter la banque. L'exhaustivité du 
recensement est l'idéal visé par cette étape. Quelques règles doivent être 
respectées pour établir une liste aussi complète que possible. 

Le risk manager et l'expert doivent examiner sans a priori tout ce qui 
peut affecter la banque. Aucun risque ne doit être écarté à ce stade sans jus- 
tification sérieuse. Il ne s'agit pas de se poser des questions sur la fréquence 
ou la gravité des risques mais d'envisager les situations possibles. 

Les deux principes suivants sont de bons guides pour conduire l'iden- 
tification : 

• Tout ce qui est déjà arrivé à la banque ou à une autre banque peut 
survenir de nouveau. 

• Ce qui se conçoit par l'imagination peut arriver. 

Cette étape implique donc de l'imagination et de la créativité, mais 
aussi du bon sens qui servira à canaliser une imagination débordante in- 
ventant des scénarios invraisemblables. 

L'identification des vulnérabilités repose en général sur un référentiel 
établi par la banque qui liste les périls possibles et les objets de la banque. 
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L'identification consiste à retenir un sous-ensemble des risques définis par 
ces référentiels. L'identification peut se faire en étudiant des scénarios, en 
partant des objets et en envisageant les périls qui peuvent frapper dessus, 
en analysant les processus sensibles de la banque etc. Il s'agit d'une étape 
de brainstorming, qui ne doit pas être abordée de façon dogmatique. 

► Sélection des vulnérabilités 

La sélection des vulnérabilités se fait en (1) positionnant chacune dans 
le plan Gravité x Fréquence (2) et en ne conservant que celles qui vérifient 
une règle d'éligibilité définie a priori. 

Il faut donc dans un premier temps définir une échelle de fréquence et 
une échelle de gravité. Ces deux échelles doivent permettre aux risk mana- 
gers et aux experts de qualifier leurs vulnérabilités. Elles doivent donc être 
simples à utiliser. Une échelle de fréquence classique est : « plusieurs fois 
par an », « 1 fois par an» , « 1 fois tous les 5 ans » , etc. Pour la gravité, on 
pourra considérer par exemple des ordres de grandeur de montant. 

Une fois l'échelle définie, une règle d'éligibilité doit être établie pour 
ne retenir que les vulnérabilités significatives, c'est-à-dire les vulnérabilités 
dont la fréquence ou la gravité sont suffisamment élevées. 

► Étude détaillée des vulnérabilités 

Chaque vulnérabilité sélectionnée doit faire l'objet d'une étude détaillée 
qui mettra en évidence les mesures de prévention et de protection déjà en 
place ou envisagées pour l'année à venir, qui identifiera les facteurs influen- 
çant la survenance ou aggravant les conséquences, et enfin qui produira 
une première évaluation des pertes associées pour l'année à venir. 

10.3.4 Quantification des scénarios 

La deuxième phase de la modélisation des risques opérationnels con- 
siste à quantifier chaque vulnérabilité. Elle est réalisée principalement par 
le modélisateur et repose sur l'analyse détaillée de chaque scénario. L'in- 
terlocuteur principal du modélisateur est le risk manager mais le recours à 
l'expert peut être nécessaire pour éclairer ou enrichir éventuellement l'ana- 
lyse. 

Le processus de quantification d'une vulnérabilité (ou d'un scénario) se 
décompose en 6 étapes : 

® Définir exposition, survenance et gravité. 
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® Modéliser l'exposition à l'aide d'un réseau bayésien. 

® Modéliser la survenance à l'aide d'un réseau bayésien. 

© Modéliser la gravité à l'aide d'un réseau bayésien. 

© Générer les pertes potentielles basées sur ce scénario. 

© Calculer la distribution et les fonds propres. 

Nous décrivons maintenant chacune de ces étapes. 


► Définir l'exposition, la survenance, et la gravité 

Cette étape a pour objectif principal d'identifier clairement l'objet ex- 
posé, d'évaluer le nombre d'objets exposés, et de définir la survenance et 
la gravité d'une vulnérabilité définies par un triplet {Péril, Objet, Consé- 
quence}. 

Rappelons que les objets exposés doivent être indépendants du point 
de vue du péril considéré pour que le modèle XSG puisse s'appliquer et 
qu'un péril ne doit pouvoir frapper un objet qu'une seule fois dans l'année. 

Ces deux contraintes qui caractérisent un objet exposé ne peuvent en 
général pas être prises en compte lors de la phase de définition des scéna- 
rios ; il revient au modélisateur d'adapter la notion d'objet à ses besoins. 

Par exemple, si la première phase a mis en évidence le péril « panne in- 
formatique » sur l'objet « service de traitement des ordres boursiers » , cet 
objet pouvant subir plusieurs pannes dans l'année, il ne peut être considéré 
comme un objet pour la modélisation. L'objet qui devra être considéré dans 
ce cas est une tranche de temps de fonctionnement du service de traitement 
des ordres boursiers. Mais attention, les tranches de temps doivent être in- 
dépendantes par rapport au péril « panne informatique » ; il est donc né- 
cessaire d'ajuster la durée de la tranche afin d'assurer cette indépendance. 
Ainsi on pourra considérer, si une panne dure au maximum une journée, 
que l'objet exposé est « une journée d'activité du service de traitement des 
ordres boursiers » . 

La définition du bon objet exposé est comparable à celle du bon système 
en thermodynamique : elle conditionne la qualité du modèle. 


► Modéliser l'exposition 

Une fois l'objet défini, l'exposition est en général la grandeur la plus 
facile à modéliser. Elle représente le nombre d'objets exposés au péril prévu 
pour l'année à venir. 
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L'exposition traduit en général l'activité prévue pour la banque dans 
un domaine donné. Par exemple, le nombre de cartes bancaires en circula- 
tion, le nombre d'opérations de marketing direct, le nombre de clients ayant 
souscrit un crédit à la consommation sont des mesures de l'exposition. 

L'exposition pour l'année à venir est donc le produit de deux gran- 
deurs : l'exposition pour l'année écoulée et la prévision d'évolution de l'ac- 
tivité dans le domaine concerné. L'exposition de l'année écoulée est ob- 
servée directement. La prévision d'évolution pourra être définie en fonc- 
tion des objectifs commerciaux ou stratégiques de la banque, et sera par 
exemple fournie sous forme d'une distribution de probabilité traduisant 
trois hypothèses : basse, moyenne, haute. 

Le réseau bayésien d'exposition contient donc au minimum trois nœuds : 

• L'exposition de l'année qui vient de s'écouler, qui prend une valeur 
unique. 

• La prévision d'évolution de l'exposition pour l'année à venir qui prend 
trois modalités. 

• L'exposition de l'année à venir qui est le produit des deux grandeurs 
précédentes. 

Il peut être complété d'autres nœuds, qui seraient les déterminants de 
la prévision d'évolution. Ces déterminants sont en général de deux na- 
tures : des décisions stratégiques, susceptibles de modifier de façon volon- 
taire l'exposition, et des facteurs externes, qui représentent les incertitudes 
racines de cette prévision. 

► Modéliser la survenance 

La question qui se pose à ce stade est celle de la survenance d'un péril et 
de ses conditions. Le modélisateur portera son attention sur les mesures de 
prévention décrites dans l'analyse détaillée et tentera d'exhiber les enchaî- 
nements qui aboutissent au sinistre. Le péril survient ou ne survient pas 
durant l'année. Quantifier la survenance c'est définir la probabilité qu'un 
péril survienne. 

Trois types d'approche sont envisageables selon la nature du problème 
et la disponibilité de l'expertise et des données : 

• Échelle de fréquence 

Si la survenance est très rare et non modélisable, le recours à une 
échelle de fréquence peut s'avérer utile. Cette échelle exprime com- 
bien de fois le péril est susceptible de frapper chaque année. La pro- 
babilité de survenance se déduit en divisant par l'exposition. 

Ce mode d'évaluation de la fréquence convient par exemple aux ca- 
tastrophes naturelles. 
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FlG. 10.3 Modéliser l'exposition par un réseau bayésien 


• Estimation empirique 

Si la survenance est très fréquente et stable dans le temps, une estima- 
tion empirique de la probabilité est suffisante. Elle consiste à diviser 
le nombre de sinistres constatés l'année précédente par l'exposition 
de l'année précédente. 

Ce mode d'évaluation convient par exemple aux erreurs humaines 
(erreurs de saisie). 

Attention, lorsque l'on comptabilise les sinistres de l'année précé- 
dente, il est préférable de comptabiliser aussi, lorsque cela est pos- 
sible, les near misses, c'est-à-dire les incidents sans gravité car cette 
gravité nulle peut être le fait du hasard. 

• Modèle théorique 

Si le phénomène est bien appréhendé dans l'analyse de la vulnéra- 
bilité, le recours à un modèle théorique décrivant le processus qui 
aboutit à la survenance d'un sinistre est conseillé. 

La survenance sera donc conditionnée à la survenance de plusieurs 
problèmes, chacun de ces problèmes pouvant lui-même être condi- 
tionné à plusieurs déterminants. 

Par exemple, supposons qu'un ordre de bourse puisse être frappé 
par une erreur de saisie. Si de plus une mesure de double contrôle 
a été mise en place pour les ordres de gros montants, la survenance 
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FlG. 10.4 Modéliser in survenance par un réseau bayésien 


dépendra donc du montant de l'ordre et du fait que le double contrôle 
a échoué ou non. Un incident survient soit si « le montant de l'ordre 
est faible ET une erreur de saisie a lieu », soit si « le montant de 
Tordre est élevé ET qu'une erreur de saisie a lieu ET que le double 
contrôle a échoué ». 

On peut encore considérer que l'absence de contrôle équivaut à un 
échec de celui-ci. Le réseau bayésien représentant la survenance est 
alors un arbre logique probabiliste de type arbre des causes. 


► Modéliser la gravité 

La question qui se pose lors de la modélisation de la gravité est celle 
de la perte consécutive à la survenance d'un péril sur l'objet exposé. Nous 
devons donc considérer que le sinistre est survenu et essayer de quantifier 
le coût des pertes. 

La modélisation de la gravité suit cinq étapes : 

® Equation de la gravité. 

(D Probabilisation. 

© Conditionnement. 
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© Construction du réseau bayésien et Distribution. 
© Validation. 


La première question qui se pose concerne le coût et les composantes 
du coût d'un sinistre potentiel. 

L'équation de la gravité est une relation mathématique déterministe ex- 
primant la gravité comme une fonction d'un ensemble de facteurs. Ces fac- 
teurs sont donc les déterminants, ou causes de la gravité. 

Considérons un incendie frappant une agence bancaire. La perte consé- 
cutive à un incendie est le coût de reconstruction des bâtiments endom- 
magés et le coût de remplacement des aménagements ; à titre prudentiel 
nous supposerons que tout le mobilier sera remplacé. Le coût du sinistre 
est alors égal au montant de la reconstruction et de l'aménagement, suppo- 
sés dépendre linéairement de la surface de l'agence et éventuellement d'un 
taux de destruction par l'incendie. 

La gravité s'exprime alors en fonction des facteurs suivants : 

• surface de l'agence ; 

• pourcentage détruit par l'incendie ; 

• prix des aménagements au m 2 ; 

• coût de reconstruction au m 2 . 

L'équation est une relation formelle ; elle doit être établie en faisant abs- 
traction des difficultés de quantification précise de ses facteurs. 

L'intérêt de cette équation est que l'on peut calculer une perte poten- 
tielle en faisant des hypothèses sur chaque facteur. Il n'est pas nécessaire 
d'avoir des sinistres pour obtenir des données de pertes, il suffit d'en simu- 
ler à partir des facteurs. Lorsque l'équation est difficile à établir, on pourra 
toujours adopter une position prudentielle et exprimer une équation qui 
majore la gravité. Cette prudence, si elle ne coûte pas trop cher à l'arrivée 
en fonds propres, permet bien souvent de simplifier les problèmes. 

Si l'équation établit une relation exacte entre la gravité et ses facteurs, il 
faut garder à l'esprit que les facteurs dépendent en général au minimum de 
l'objet frappé et doivent donc être représentés par des variables aléatoires. 

L'étape de probabilisation de l'équation consiste à caractériser la dis- 
tribution de chaque facteur. Si des données sont disponibles sur le facteur, 
une distribution empirique calculée sur les données sera appliquée. Si une 
loi théorique est connue sur le facteur (par exemple : le rendement d'un 
marché suit une loi log-normale), ses paramètres doivent être estimés ou 
fournis par les experts. Si aucune donnée historique n'est disponible ni au- 
cune loi théorique connue, la distribution sera établie à partir de probabili- 
tés subjectives données par des experts. 
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Revenons à l'exemple de l'incendie sur une agence bancaire et proba- 
bilisons son équation. Le facteur « coût de l'aménagement au m 2 » suit 
une distribution empirique calculée sur l'ensemble des agences. Le facteur 
« pourcentage détruit » suit une distribution théorique dont les paramètres 
pourront être fournis par l'ingénieur sécurité. Le facteur « coût du bâtiment 
au m 2 » suit une distribution empirique obtenue à partir de données de 
marché externes. Le facteur « surface » suit une distribution empirique 
obtenue du service gérant le parc immobilier de la banque. 

L'étape de conditionnement intervient une fois les facteurs de la gravité 
définis à travers l'équation. La question se pose alors de savoir si ces fac- 
teurs dépendent eux-mêmes d'autres déterminants. De quoi dépend, par 
exemple, le coût immobilier au m 2 d'une agence bancaire ? 

Le conditionnement d'un facteur consiste à : 

• rechercher ses déterminants ; 

• définir la distribution de chaque déterminant ; 

• établir la relation entre la distribution du facteur et la distribution de 
chaque déterminant. 

Attention, il ne s'agit pas de conditionner un facteur par des détermi- 
nants inutilisables dans la pratique. 

Un déterminant doit être au minimum quantifiable c'est-à-dire que sa 
distribution doit être calculable. Un déterminant qui n'est pas quantifiable, 
même s'il a manifestement une influence sur la gravité, ne nous est d'aucun 
secours lors de la modélisation quantitative. Il est par exemple clair que 
la pugnacité des services juridiques sera un déterminant du montant des 
indemnités dues au titre d'un défaut de conseil. Malheureusement, cette 
pugnacité est difficilement quantifiable et ne sera donc pas retenue dans le 
modèle. 

Deux qualités sont à rechercher pour un déterminant : son caractère 
prévisible et contrôlable. 

Un déterminant est prévisible s'il peut être prévu ou faire l'objet d'hy- 
pothèses raisonnables. Par exemple, le rendement du marché action fran- 
çais est un déterminant prévisible car on peut faire des hypothèses raison- 
nables sur son comportement dans l'année à venir : sans prétendre prévoir 
sa tendance à un an, on peut considérer que sa distribution sera comparable 
à la distribution empirique constatée dans le passé. 

Un déterminant est contrôlable si la banque peut modifier sa distribu- 
tion. Le rendement du marché action n'est pas contrôlable par la banque 
alors que le niveau de formation des salariés peut être contrôlé en enga- 
geant des plans de formation. L'intérêt d'un déterminant contrôlable est 
qu'il constitue un levier de réduction des risques. 
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À ce stade, le modèle est parfaitement décrit. Pour calculer la distri- 
bution de la gravité, nous devons construire notre machine à calculer des 
distributions conditionnelles : le réseau bayésien. 

Les nœuds du réseau sont la gravité, les facteurs et les déterminants : 

• La distribution conditionnelle de la gravité à ses facteurs se déduit 
directement de l'équation. 

• La distribution des facteurs a été définie lors de l'étape de probabili- 
sation. 

• La distribution conditionnelle d'un facteur à ses déterminants et la 
distribution des déterminants ont été définies lors du conditionne- 
ment. 

Une fois construit, le réseau calcule naturellement la distribution de la 
gravité par inférence. 

L'étape de validation comporte plusieurs niveaux. 

Le premier niveau de validation est structurel. Il concerne le graphe de 
connaissance et les distributions conditionnelles. Par construction même, le 
réseau bayésien n'est qu'une traduction directe de la connaissance des ex- 
perts. Toutefois, des hypothèses sont parfois posées quant aux distributions 
(probabilités subjectives, etc.) qu'il convient de valider. 

Le deuxième niveau de validation est numérique. Le modèle doit être 
confronté aux pertes observées, si elles existent. Mathématiquement, il s'agit 
de vérifier que les pertes constatées sont vraisemblables dans le cadre du 
modèle posé. 
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Évidemment, la mesure de cette vraisemblance n'est possible que si 
nous avons pu observer des pertes. Dans le cas des risques de gravité, au- 
cune validation rigoureuse n'est donc possible. Seuls les experts pourront 
évaluer la plausibilité de la distribution obtenue. 

Cette impossibilité de confronter un modèle aux données dans le cas 
des risques de gravité encourage une approche basée sur l'expertise car 
cette dernière permet une validation structurelle. 

Nous disposons à ce stade de trois réseaux bayésiens respectivement 
pour l'exposition, la survenance et la gravité. Ces trois réseaux peuvent être 
interconnectés et ne doivent donc pas être considérés indépendamment. Si 
l'on revient à l'exemple des erreurs de saisie sur ordres de bourse, le mon- 
tant de l'ordre conditionne à la fois la survenance, car les ordres de montant 
élevé subissent un contrôle supérieur, et la gravité car la perte est d'autant 
plus élevée que le montant de l'ordre est important. Nous regroupons donc 
ces trois réseaux en un seul réseau que nous appelons réseau XSG. 

L'étape d'échantillonnage d'une vulnérabilité consiste à effectuer une 
simulation de Monte Carlo d'un grand nombre d'années d'exervice, en uti- 
lisant le réseau XSG. 

Pour chaque année simulée : 

• Échantillonner l'exposition suivant le modèle disponible. 

• Pour chaque objet exposé, calculer sa probabilité d'être touché par un 
sinistre, et tirer aléatoirement la survenance d'un sinistre. 

• Pour chaque sinistre, échantillonner sa gravité. 

• Cumuler les pertes de tous les sinistres échantillonnés. 

Cet échantillonnage se fait bien sûr en tenant compte des interdépen- 
dances entre les déterminants. 

Nous disposons à ce niveau de N années de pertes simulées. Nous 
sommes donc en mesure de calculer la distribution des pertes annuelles 
soit en considérant un histogramme soit en ajustant une distribution théo- 
rique sur les pertes échantillonnées. Les fonds propres peuvent alors être 
calculés en considérant le centile à 99,9 % de la distribution. 


10.3.5 Résumé 

La démarche de modélisation des vulnérabilités retenue pour les risques 
de gravité et pour les risques de fréquence instables ou à impact cumulé 
élevé est une démarche résolument basée sur la connaissance. Tout le pro- 
cessus de modélisation conduit à produire des données de pertes simulées 
fondées sur une connaissance du scénario générateur de risques. À ce titre, 
notre démarche pourra être rapprochée d'une LDA classique : on peut la 
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qualifier de LDA conditionnelle basée sur des scénarios. Pour la LDA clas- 
sique les données passées sont supposées représenter les risques futurs, 
alors que dans la LDA conditionnelle, les données passées s'effacent de- 
vant les pertes potentielles produites à partir de modèles de connaissance. 


10.4 Conclusion 

La démarche proposée ici a permis de répondre aux trois objectifs fixés 
initialement pour la modélisation des risques opérationnels. Nous avons 
développé un modèle qui permet de calculer les fonds propres au titre des 
risques opérationnels. Le modèle permet de prévoir l'influence d'un indi- 
cateur en modifiant sa distribution et en mesurant l'impact sur la distribu- 
tion des risques opérationnels. On pourra par exemple analyser l'impact 
d'un krach boursier, l'impact d'un changement de réglementation, ou en- 
core l'impact de la dégradation de la fiabilité des partenaires commerciaux. 

Le modèle permet enfin de comprendre les processus générateurs de 
risques, d'identifier les leviers de réduction des risques et d'évaluer l'inté- 
rêt d'une mesure de réduction des risques en prenant en compte son coût. 
Les leviers de réduction doivent être choisis parmi les indicateurs contrô- 
lables par la banque. Un mesure de réduction, qui consiste à agir sur un 
levier de réduction, a un coût. La comparaison entre le coût de la mesure 
de réduction et son impact sur la distribution des risques opérationnels fait 
partie de l'étude qui justifie la mise en place de la mesure. De telles études 
pourront par exemple être menées pour évaluer l'opportunité d'un plan de 
continuité d'activité ou bien justifier la mise en place d'un programme de 
formation pour améliorer la qualification des agents. 
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Étude de cas n°3 : étude d'un 
système électrique 


L'ensemble des installations de production et de transport d'éner- 
gie électrique, dans une région donnée, constitue un système industriel 
complexe. Les centrales de production, thermiques ou hydrauliques, le ré- 
seau électrique (lignes, postes de transformation) et les centres de conduite 
sont en interaction permanente et doivent assurer, à tout instant, l'équilibre 
entre la demande et la production d'électricité. 

Même si l'on adopte un point de vue très macroscopique, un grand 
nombre de variables est nécessaire pour caractériser à un instant donné, 
l'état du système électrique d'une région. Nous pouvons citer a minima : 

• les puissances débitées sur le réseau par les installations de produc- 
tion situées dans la région ; 

• les puissances transitant sur les éventuelles lignes d'interconnexion 
avec d'autres systèmes électriques ; 

• la consommation en chaque site industriel directement raccordé au 
réseau de transport et en chaque point de livraison vers les réseaux 
de distribution ; 

• la description de la topologie du réseau : ouvrages exploités, en main- 
tenance programmée, ou en indisponibilité fortuite (suite à un inci- 
dent). 
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Les méthodes de la sûreté de fonctionnement ont été développées dans 
les années 1960 et 1970 et ont été originellement appliquées dans les sec- 
teurs aéronautique, spatial, militaire, chimique, pétrolier, nucléaire et fer- 
roviaire. La modélisation d'un système électrique présente cependant une 
difficulté particulière par rapport à celle, par exemple, d'un avion ou d'une 
automobile : la configuration du système, ainsi que les contraintes aux- 
quelles il est soumis sont en perpétuelle évolution. Il y a deux raisons à 
cela : d'une part, les indisponibilités, programmées ou fortuites, des ou- 
vrages de production et de transport ; d'autre part, la forte variabilité dans 
le temps et dans l'espace de la demande en électricité. Ces deux facteurs 
font qu'il n'est pas possible de définir de mode de fonctionnement nominal 
d'un système électrique. 

Les études de sécurité du système électrique nécessitent donc au préa- 
lable la génération d'un échantillon d'états du système, ou situations de 
réseau qui sont ensuite analysés individuellement au moyen d'outils spé- 
cifiques. L'analyse d'une situation de réseau est elle-même complexe et né- 
cessite plusieurs minutes, voire plusieurs heures de temps de calcul, car 
elle implique la résolution d'un grand nombre d'équations différentielles. 
La phase de génération des situations de réseau est donc critique, car il est 
primordial de ne pas gaspiller de temps de calcul par l'analyse détaillée 
d'états extrêmement peu probables. En d'autres termes, l'enjeu est de pou- 
voir générer un échantillon d'états du système électrique en s'assurant de 
sa plausibilité, de manière à recouvrir au mieux l'espace des possibles. 


11.1 Modélisation d'un réseau électrique 

11.1.1 Variables aléatoires 

Le réseau très haute tension français est composé d'environ 100 000 ki- 
lomètres de lignes à haute tension, de plusieurs centaines de groupes de 
production (thermiques ou hydrauliques) connectés au réseau, et d'envi- 
ron deux cents nœuds de consommation (clients industriels et points de 
livraison vers les réseaux de distribution). 

À l'échelle nationale, une situation de réseau est donc décrite par un en- 
semble de plusieurs centaines de variables symboliques (états d'une ligne, 
d'un groupe de production) ou numériques (consommations en différents 
points, puissances débitées par les groupes de production). À l'échelle ré- 
gionale, le nombre de variables est de l'ordre de quelques dizaines. 

Afin de manipuler des variables prenant un nombre fini de valeurs 
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et de définir en toute rigueur la probabilité d'une situation de réseau, on 
peut choisir de discrétiser les variables continues comme par exemple la 
consommation d'électricité en un nœud du réseau. 

La situation du réseau, à chaque instant, peut ainsi être assimilée à un 
vecteur comprenant plusieurs dizaines à plusieurs centaines de variables. 
Ces variables sont, du point de vue de l'exploitant de réseau, entachées de 
nombreuses incertitudes : 

• Variabilité de la consommation. Il est difficile de prévoir avec pré- 
cision le niveau et la répartition de la consommation, même à court 
terme. Un exemple souvent cité à ce sujet est le suivant : en hiver, 
une baisse d'un degré Celsius de la température en France augmente 
la consommation nationale d'environ 1000 MW, soit l'ordre de gran- 
deur de la production d'un réacteur nucléaire. Bien évidemment, à 
plus long terme, la consommation d'électricité dépend de multiples 
facteurs économiques, sociaux ou démographiques qui la rendent en- 
core plus difficile à prévoir. 

• Indisponibilité fortuites. Le système est affecté par des événements 
imprévisibles, comme les défaillances de lignes, de postes de trans- 
formation ou de groupes de production, qui entraînent des indispo- 
nibilités fortuites. 

• Incertitudes sur la production. Dans le contexte actuel de libéralisa- 
tion des systèmes électriques, l'activité de gestion de réseau se disso- 
cie du domaine de la production d'énergie électrique, qui est soumis 
à la concurrence. Les informations dont disposent les différents ac- 
teurs sont incomplètes. En particulier, les exploitants de réseau ont 
une connaissance partielle du programme de production des cen- 
trales installées dans la région, et à plus long terme des projets de 
mise en service de nouvelles installations de production. 


Il apparaît donc raisonnable de modéliser par des variables aléatoires 
les différents paramètres qui caractérisent la situation de réseau. D'une 
manière générale, l'existence de ces incertitudes renforce la pertinence des 
méthodes probabilistes pour les études de conception ou de fonctionne- 
ment des systèmes électriques. Ce constat s'applique à d'autres industries 
de réseau, dans les domaines des transports ou des télécommunications 
par exemple. 

11.1.2 Dépendances entre variables 


Les phénomènes de dépendances entre les variables d'une situation 
de réseau sont abondamment décrits dans la littérature du domaine des 
études de sécurité et d'adéquation des systèmes électriques. Nous pouvons 
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Types de dépendances entre défaillances 

Exemples 

Défaillance de cause commune ou 
de mode commun 

Chute d’un arbre sur les deux ternes d’une 
ligne; défaut de conception d’une protec- 
tion 

Dépendances dues à des compo- 
sants communs 

Défaillance d’un poste induisant la perte de 
plusieurs groupes et lignes 

Dépendances dues à un environne- 
ment commun tel que le climat 

Taux de défaillance des lignes plus élevés 
en cas de tempête ou d’orage 

Cascades de pannes 

Défaillance d’une protection induisant une 
sollicitation plus contraignante d’autres ou- 
vrages (stress) 

Dépendances dues à un nombre li- 
mité de réparateurs 

Phénomène de file d’attente dû à un 
nombre limité de réparateurs (exemple : 
deux composants en panne, un réparateur) 


Tab. 11.1 Types de dépendances entre défaillances, [BA88] 


citer les exemples suivants : 

• Dans [BL94], l'accent est mis sur les dépendances entre les consom- 
mations en différents nœuds, et entre les indisponibilités de lignes 
dues à des conditions climatiques défavorables. 

• Dans [BL92] et [YNH99], une attention particulière est portée sur les 
dépendances entre les consommations en différents nœuds. 

• Les articles [ADS94], [BS95], [ESH96], [MS97] et [UPK+97] men- 
tionnent l'importance des conditions climatiques dans les évaluations 
de fiabilité d'un réseau. Les conditions climatiques influent sur les 
paramètres de production (état des réserves d'eau, etc.), de transport 
(orages affectant les lignes, etc.), de consommation (température) et 
sont ainsi responsables de phénomènes de dépendances. 

• L'importance des dépendances dans les évaluations de fiabilité des 
systèmes électriques est particulièrement reconnue pour les phéno- 
mènes de défaillances (tableau 11.1). 

Prendre en compte les dépendances se révèle indispensable pour éva- 
luer la probabilité d'une situation de réseau. Par exemple, la probabilité 
de défaillance simultanée de plusieurs lignes voisines apparaît comme très 
faible si l'on considère l'état de chaque ligne comme des variables aléa- 
toires indépendantes. En revanche, la probabilité se trouve augmentée de 
plusieurs ordres de grandeur si l'on modélise le risque d'orage dans la ré- 
gion où sont situées les lignes. Donnons un exemple numérique, en consi- 
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dérant deux lignes du réseau. Le retour d'expérience peut conduire à esti- 
mer la probabilité marginale de défaut sur chaque ligne à 1 0 . La proba- 

bilité de défauts simultanés sur les deux lignes serait donc, si les lignes se 
comportaient de manière indépendante, de 1 0~ 6 , soit une valeur extrême- 
ment faible. Or, supposons que les deux lignes soient proches géographi- 
quement, voire montées sur les mêmes pylônes. Alors si l'une des lignes est 
affectée par un incident, il existe une forte probabilité pour que la seconde 
soit affectée par ce même incident, qu'il s'agisse d'intempéries, de foudre, 
de givre, de la chute d'un arbre, etc. La probabilité de défauts simultanés 
sur les deux lignes est donc en réalité très largement supérieure à 1 0 -6 . Cet 
exemple met clairement en évidence que le seul historique des défaillances 
d'un composant peut être inexploitable pour construire un modèle proba- 
biliste s'il ne s'accompagne pas d'un relevé précis du contexte dans lequel 
la défaillance s'est produite. 


11.1.3 Choix d'un modèle mathématique 

La plupart des études de fiabilité s'effectuent au moyen de modèles lo- 
giques, comme les arbres de défaillances, les diagrammes de fiabilité, les 
fonctions de structure ou encore les diagrammes de décision binaire. Ces 
modèles représentent l'état de chaque composant et l'état du système par 
des variables booléennes. 

Les modèles les plus couramment utilisés sont les arbres de défaillances 
[KH96]. Dans un arbre de défaillances, l'état de chaque composant i est re- 
présenté par une variable booléenne X iy et l'état du système par une fonc- 
tion booléenne et déterministe des Xi, classiquement notée 

®(Xl,...,X n ). (1L1) 

Afin de déterminer la loi de probabilité de O, il est souvent nécessaire de 
postuler l'indépendance stochastique des X L . La prise en compte de dé- 
pendances n'est possible qu'au moyen d'approximations ou d'artifices de 
modélisation. 

On peut également remarquer qu'un arbre de défaillances est un cas 
particulier de réseau bayésien, dans lequel : 

• toutes les variables sont booléennes ; 

• les variables intermédiaires dépendent de manière déterministe de 
leurs variables parentes. 

En présence de variables à plus de deux modalités (multi-états) et de 
dépendances stochastiques entre variables, le choix d'une modélisation par 
réseau bayésien s'impose naturellement. 
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11.2 Etude du réseau électrique en région PACA 

11.2.1 Contexte 


La modélisation d'un système électrique par un réseau bayésien a été 
utilisée dans le cadre d'une étude de mise à jour des règles d'exploitation 
du réseau en région PACA (Provence-Alpes-Côte d'Azur). 



FlG. 11.1 Le réseau électrique en région PACA 

L'étude, réalisée par EDF R&D pour le gestionnaire du réseau de trans- 
port français (RTE : réseau de transport d'électricité), s'appuyait sur l'ana- 
lyse d'un échantillon de 1 0 000 situations du réseau en région PACA 1 . Cet 
échantillon avait été généré plusieurs années auparavant sans prendre en 
compte les dépendances conditionnelles : la valeur de chaque paramètre 
avait été tirée aléatoirement, indépendamment de celles des autres para- 
mètres. Il était capital de vérifier la plausibilité des situations et d'éliminer, 
le cas échéant, des situations très improbables qui d'une part, auraient en- 
traîné des calculs superflus et d'autre part, risquaient d'introduire des biais 
dans la définition des règles d'exploitation. 


1 L'étude présentée dans ce chapitre a fait l'objet de publications. Pour plus de détails, 
le lecteur pourra donc se référer à [PPSP01] et [PPSP02] sur la modélisation par réseau 
bayésien et à [SPP02] sur l'utilisation de l'étude. 
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11.2.2 Construction du modèle 


L'équipe d'EDF R&D, avec la contribution d'exploitants du centre de 
conduite de Marseille, a identifié les principales dépendances entre va- 
riables et recueilli les informations nécessaires concernant la consomma- 
tion, la gestion de la production et la politique de maintenance des lignes 
électriques. 

Énumérer l'ensemble des dépendances prises en compte dans l'étude 
dépasserait le cadre de notre propos : nous citons ici les principales rela- 
tions entre variables. 

Différentes dépendances liées aux phénomènes climatiques ont été mi- 
ses en évidence. En raison de l'utilisation de l'électricité pour le chauffage 
et l'éclairage, la température et la nébulosité influencent la consommation. 
Par ailleurs, le climat influence les probabilités d'incident sur les lignes de 
transport : une température chaude favorise l'activité kéraunique et donc 
le risque de foudre, une température négative entraîne un risque de gel, 
etc. Enfin, la température influence les transits maximaux de puissance sur 
les lignes de transport. On peut observer que l'existence d'une dépendance 
stochastique entre les variables caractérisant la consommation et l'état des 
lignes du réseau de transport n'était pas évidente en première analyse ! 

Les paramètres chronologiques (jour de l'année, jour de la semaine, 
heure de la journée) ont également des influences multiples. L'heure in- 
fluence la consommation (creux dans la nuit, pic du soir en hiver). La date 
influence la consommation (week-ends, jours fériés, jours dit d'effacement 
jour de pointe où certains clients sont soumis à un tarif plus élevé de ma- 
nière à réduire la consommation nationale les jours de grand froid). Enfin, 
il est clair que la date et le climat sont liés, de même que l'heure de la jour- 
née et la température. On retrouve ainsi les dépendances climatiques citées 
plus haut. 

Les dépendances dues à la politique de maintenance des lignes du ré- 
seau ont une importance considérable. Les lignes sont de préférence main- 
tenues au printemps et en été, périodes où le réseau est moins contraint (et 
où il est moins pénible pour les opérateurs de travailler sur les lignes). Par 
ailleurs, le choix des ouvrages maintenus s'effectue de manière à ce que la 
topologie du réseau permette à celui-ci d'alimenter en énergie électrique 
chaque client industriel et chaque connexion avec les réseaux de distribu- 
tion. Typiquement, certaines paires de lignes du réseau ne se trouvent ja- 
mais simultanément en maintenance programmée. 

Au total, le réseau bayésien (construit avec le logiciel Netica) se compo- 
sait de 110 variables représentant les ouvrages de production, la consom- 
mation régionale, les paramètres climatiques et chronologiques, ainsi que 
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FlG. 11.2 Réseau bayésien modélisant le système électrique 


la production et l'importation de puissance électrique. Les dépendances 
entre variables sont représentées par 146 liens (figure 11.2 ). 

La phase de construction du modèle a mis en évidence deux avantages 
majeurs de la modélisation par réseau bayésien : 

• le caractère intuitif du modèle, qui le rend compréhensible et utili- 
sable par un non-spécialiste des méthodes probabilistes ; 

• l'interactivité : le fait d'évaluer l'influence d'une variable sur les autres 
variables du modèle en un clic de souris facilite grandement la vali- 
dation du modèle. 

11.2.3 Résultats de l'étude 

Le temps de calcul de la probabilité d'une situation du réseau par le ré- 
seau bayésien était de l'ordre d'une seconde. Ainsi, l'ensemble des 1 0 000 
situations a pu être traité en moins de trois heures. 


Le calcul des probabilités a mis en évidence que 15% environ des situa- 
tions étaient très peu probables (probabilités comprises entre 1 0~ 10 et 1 0“ 5 ) 
et pouvaient être supprimées de l'échantillon. Quelques situations extrê- 
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mement peu probables ont fait l'objet d'une analyse minutieuse. La plupart 
d'entre elles étaient des situations où le réseau était fortement contraint et 
présentait un risque d'écroulement. Prendre en compte ces situations au- 
rait pu amener à définir des règles d'exploitation trop conservatives et donc 
trop coûteuses. 

La plupart des logiciels de traitement de réseau bayésien (tels que Ne- 
tica) sont dotés d'une fonctionnalité de génération aléatoire de situations. 
Dans le cadre d'une nouvelle étude de mise au point de règles d'exploita- 
tion, il sera donc possible de générer les situations de réseau en prenant en 
compte les phénomènes de dépendances entre variables, de manière à : 

• se prémunir de la présence de situations extrêmement invraisem- 
blables dans l'échantillon ; 

• obtenir une représentation réaliste des situations effectivement ren- 
contrées en exploitation ; 

• s'affranchir de l'étape de calcul a posteriori des probabilités de situa- 
tions de réseau. 
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Étude de cas n°4 : questionnaire 
adaptatif pour la vente de 
crédit en ligne 


Le développement du commerce sur Internet a conduit tout naturel- 
lement les sociétés de crédit à la consommation à chercher des débouchés 
à travers ce canal de vente. En effet, les cartes de crédit de type revolving, 
utilisées en général dans les grands magasins, peuvent être transposées à 
l'environnement Internet. La possibilité d'offrir un service d'octroi de cré- 
dit en ligne est donc un plus pour les sites de commerce électronique, qu'ils 
vendent des voyages, des biens culturels, ou des vêtements, pour ne citer 
que quelques exemples. Comme pour les grands magasins ou la VPC clas- 
sique, l'accès sur le même site aux biens de consommation et au service de 
crédit, est un accélérateur de la consommation. 

La vente sur Internet présente cependant une difficulté particulière qui 
est la fragilité du processus de vente. Dans le monde réel, lorsqu'un client 
se présente à un vendeur — ou dans le cas qui nous intéresse, demande 
l'ouverture d'un dossier pour obtenir une carte de crédit revolving — il est 
somme toute assez rare qu'il revienne sur sa décision au cours de l'entre- 
tien. La relation qui s'établit avec le vendeur, indépendamment de sa force 
de persuasion, rend pratiquement certain l'aboutissement du processus. 
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FlG. 12.1 Gestion du risque pour la vente de crédit en ligne 


Sur Internet, en revanche, cliquer sur le bouton Acheter n'engage à rien : 
l'échange qui s'établit — avec un serveur — peut toujours être interrompu 
à tout moment, par un clic : il suffit de fermer son navigateur. Les sites 
de vente en ligne les plus aboutis ont pris en compte cette difficulté, et ont 
tenté de raccourcir le plus possible la longueur du processus de vente, pour 
la réduire, dans certains cas, à un seul clic (si le client est déjà connu). Cette 
technique favorise l'achat d'impulsion. 

La vente de crédit présente néanmoins une difficulté particulière, puis- 
qu'il faut évaluer la situation financière du client, pour minimiser les risques 
d'impayés ou de surendettement. Cette évaluation rend évidemment né- 
cessaire de poser un certain nombre de questions au client sur sa situation, 
dont les réponses vont permettre d'établir un score de risque, mesurant sa 
probabilité de défaillance. 


12.1 Un réseau bayésien comme modèle de score 


On se trouve donc dans la situation de gérer deux objectifs contradic- 
toires : d'un côté, le risque commercial est d'autant plus faible que le pro- 
cessus de vente est rapide, et de l'autre, le risque financier est d'autant plus 
faible que l'on dispose de renseignements précis et complets sur le client. 
Ce compromis est représenté sur la figure 12.1 . Plus le questionnaire d'oc- 
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troi du crédit est long, plus le risque commercial est élevé (risque d'aban- 
don de la transaction), et inversement, moindre est le risque financier (risque 
d'impayés). 

L'utilisation des réseaux bayésiens permet d'aborder ce problème d'une 
façon élégante. En effet, un score de risque financier n'est en somme qu'un 
modèle de probabilité conditionnelle, qui permet d'évaluer P (Incident 
C ar acteristiques ) . 

Supposons que les caractéristiques considérées comme pertinentes pour 
évaluer le risque financier d'un client soient au nombre de vingt (typique- 
ment, l'âge du client, son salaire, sa situation familiale et professionnelle, 
etc.). Si on choisit de mettre en œuvre ce score avec un réseau bayésien, 
on peut évaluer la probabilité d'un incident même avec des informations 
partielles. Par exemple, on peut calculer P(Incldent | Age). 

D'un autre côté, on peut également utiliser le même modèle pour déter- 
miner la question la plus pertinente à poser en fonction des réponses déjà 
obtenues. Par exemple, pour un client âgé de 25 ans, connaître son salaire 
apporte certainement plus d'informations pour connaître son risque finan- 
cier, que de connaître, par exemple, sa situation familiale. Pour un client 
plus âgé, ce peut être l'inverse. C'est le principe du questionnaire adapta- 
tif : 


Poser les questions les pins pertinentes par rapport au but à atteindre (ici éva- 
luer le risque financier ) , en fonction des réponses déjà obtenues. 


12.1.1 Données et prétraitement 

L'étude présentée ici a été réalisée indépendamment pour deux établis- 
sements de crédit, avec des résultats similaires. Nous présentons l'étude 
réalisée pour l'un des deux établissements. Pour préserver la confidentia- 
lité des données, nous ne révélons pas les variables utilisées. De même, les 
chiffres présentés (probabilités, etc.) ont été modifiés et ne sont pas néces- 
sairement représentatifs du contexte réel. 

Nous avons travaillé sur un ensemble de dossiers fournis par la société 
de crédit au début de l'étude. Il s'agit de dossiers anciens pour lesquels 
un recul suffisant est disponible. En fonction des incidents de paiement 
éventuellement survenus sur ces dossiers, on peut donc qualifier chacun 
des clients concernés de « bon » ou « mauvais » payeur. Le fichier analysé 
comporte environ 15 000 dossiers de bons payeurs (que nous pourrons par 
la suite noter BP) et environ 1 500 de mauvais payeurs (notés MP). 

Chacun des dossiers comporte quatorze variables : 

• l'âge du demandeur (âge) ; 
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• sa situation familiale (famille) ; 

• son nombre d'enfants (enfants) ; 

• sa situation d'habitation (habitat) ; 

• ses revenus (revenus) ; 

• neuf autres variables que nous laisserons muettes (Q01 à Q09). 


12.1.2 Modélisation 

La modélisation s'effectue en cinq étapes : 

• discrétisation des données quantitatives ; 

• échantillonnage en une base d'apprentissage et une base de test ; 

• apprentissage d'un réseau bayésien et analyse des performances en 
apprentissage ; 

• application du modèle à la base de test et analyse des performances 
en test ; 

• étude de la robustesse du modèle. 

Pour chacune des variables quantitatives (comme l'âge), une discrétisa- 
tion en cinq classes a été effectuée. Le découpage choisi est celui des quan- 
tiles à 20 %, 40 %, 60 % et 80 %. L'échantillonnage s'effectue séparément sur 
les bons payeurs et sur les mauvais payeurs : on extrait un certain pourcen- 
tage de chaque classe. 


L’utilisation du modèle de score pour 
prendre une décision d’accorder ou 
de refuser le crédit suppose de fixer 
un seuil à ce score. Pour choisir ce 
seuil , on peut se baser sur la répar- 
tition du score sur les deux popula- 
tions analysées. 


FlG. 12.2 Seuil de décision 


Dispersion du score selon la classe 



- Médiane 
+ Moyenne 


L'apprentissage s'effectue par l'algorithme TAN ( Tree Augmented Naïve 
Bayes, ou Tree Augmented Network, voir page 172). Le modèle cherche à pré- 
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voir le statut bon payeur ou mauvais payeur, et produit donc une proba- 
bilité d'être un bon payeur. C'est cette probabilité qui est utilisée comme 
score. 

L'analyse des résultats s'effectue en utilisant des mesures classiques de 
qualité de score, comme la matrice de confusion des deux classes. L'éta- 
blissement d'une matrice de confusion suppose de passer du score, ou de 
la probabilité à la décision. C'est-à-dire qu'à partir d'une certaine probabi- 
lité d'être un mauvais payeur, on doit décider de refuser le crédit. Une fa- 
çon d'établir ce seuil est d'observer la répartition des scores pour les deux 
classes observées a posteriori. Sur le graphique de la figure 12.2 page pré- 
cédente, on observe que les deux répartitions sont assez proches. Même si 
la probabilité a priori d'être un bon payeur est légèrement plus élevée en 
moyenne pour les dossiers qui se sont effectivement révélés bons payeurs 
que pour ceux qui ont été des mauvais payeurs a posteriori, on voit que la 
répartition des scores ne permet pas de distinguer les deux classes de fa- 
çon absolue. Pour séparer les deux classes, on peut choisir comme seuil la 
moyenne des médianes des scores observés sur les deux groupes : on ob- 
tient la matrice de confusion présentée dans la figure 12.3 . 



Une fois le seuil de décision sé- 
lectionné, on peut établir une ma- 
trice de confusion. Cette matrice 
présente la proportion de dossiers 
d’une classe donnée (bons ou mau- 
vais payeurs) effectivement recon- 
nus comme tels. 


FlG. 12.3 Matrice de confusion 


On peut utiliser également une représentation sous forme de courbe 
de lift (figure 12.4 ci-après). Cette courbe permet de représenter de façon 
assez visuelle le pouvoir séparateur d'un score. Si l'on considère une popu- 
lation à identifier, cette courbe représente la proportion reconnue de cette 
population en fonction de la proportion de la population totale sélectionnée 
suivant le score. 

Dans notre exemple, il y a 16 500 dossiers, dont 1 500 dossiers de mau- 
vais payeurs, soit environ 9 %. En sélectionnant 1 000 dossiers au hasard. 
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12.1. Un réseau bayésien comme modèle de score 



La courbe de lift permet de 
positionner le modèle de dé- 
cision basé sur le score par 
rapport au modèle aléatoire , 
ou au modèle théorique par- 
fait. 


FlG. 12.4 Courbe de lift 


on aura donc en moyenne 90 mauvais payeurs. En en sélectionnant 10 000, 
on en obtiendra 900, et ainsi de suite. Ainsi la courbe reliant les deux pro- 
portions est une droite. Supposons alors qu'on utilise un score parfait, c'est- 
à-dire qui identifie à coup sûr les mauvais payeurs. Si l'on sélectionne 1 % 
des dossiers obtenant la valeur la plus faible suivant ce score, on obtiendra 
165 dossiers de mauvais payeurs, et ainsi de suite jusqu'à 9 % des dossiers : 
en sélectionnant 9 % des dossiers suivant ce score, on aura identifié 100 % 
des mauvais payeurs. Pour ce score théorique idéal, la courbe reliant les 
deux proportions est composée de deux segments de droite, l'un de pente 
11 (100 %/9 %), et l'autre horizontal. 

Pour un score réel, ni aléatoire, ni idéal, la courbe se situe entre ces 
deux extrêmes. Cette représentation permet donc de comparer deux scores : 
plus la courbe d'un score donné s'élève rapidement par rapport à la courbe 
plancher du modèle aléatoire, meilleur est ce score. 

Dans cette application, le score obtenu grâce au réseau bayésien était de 
qualité égale à celui obtenu par des techniques statistiques traditionnelles. 
Mais l'intérêt de ce type de modèle est ici surtout son utilisation pour gui- 
der le questionnaire adaptatif, comme nous allons le voir maintenant. 


12.1.3 Le modèle obtenu 

Le modèle obtenu est représenté dans la figure 12.5 ci-après (copie 
d'écran du logiciel Hugin). Le modèle peut être utilisé comme un modèle 
de score classique : connaissant l'ensemble des informations sur le client 
(c'est-à-dire conditionnellement à ses caractéristiques), on calcule la probabi- 
lité qu'il soit un mauvais payeur. 
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FlG. 12.5 Le modèle de score obtenu 


L'utilisation du modèle en mode interactif se fait en fixant une variable, 
et en notant l'impact de cette information sur la distribution de probabilité 
des autres, comme dans l'exemple ci-après. 

Cette utilisation permet d'introduire la notion d'un questionnaire adap- 
tatif : à chaque étape, c'est la question qui minimise l'incertitude sur la dé- 
cision d'attribution qui est posée. 


12.2 Utilisation du réseau bayésien 


Les réseaux bayésiens sont par nature des modèles permettant de trai- 
ter l'information incomplète. Un réseau bayésien peut calculer la probabi- 
lité de n'importe laquelle de ses variables, conditionnellement à la connais- 
sance d'un sous-ensemble quelconque de variables observées. Par exemple, 
le réseau peut donner la probabilité d'être en face d'un mauvais payeur, 
connaissant seulement l'âge du demandeur. 

L'idée utilisée ici est de construire un questionnaire adaptatif, c'est-à- 
dire qui pose à chaque fois la question la plus pertinente, par rapport à l'ob- 
jectif fixé (accord ou refus de la demande de crédit), et en tenant compte 
des réponses déjà obtenues. 


dD 
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La probabilité a priori d’être mau- 
vais payeur est 12,5 % (voir 12.5 
page précédente). Pour la tranche 
d’âge numéro 1, la probabilité aug- 
mente jusqu’à 14,5 % (ci-contre, à 
gauche). En revanche, cette proba- 
bilité est inférieure à la moyenne 
(11,4 %) pour la tranche d’âge nu- 
méro 4 (à droite). Noter également 
que les distributions conditionnelles 
des autres variables sont modifiées 
lorsque la tranche d’âge est fixée. 



Tab. 12.1 Fonctionnement interactif du modèle 


Age 

Q01 

P(Q01 | Age) 

P ( MP | Age, Q01 ) 

Résultat(QOI) 

1 

1 

47,2 % 

15,75% 

Refuser 

2 

22,7 % 

14,41 7= 

Continuer 

3 

16,2% 

12,34% 

Continuer 

4 

10,9% 

12,69% 

Continuer 

5 

3H% 

14,3/7» 

Continuer 

2 

1 

32,7 % 

12,49% 

Continuer 

2 

19,1 % 

10,03% 

Continuer 

3 

1 7,2 % 

14,93% 

Continuer 

4 

22,3 % 

13,4/7» 

Continuer 

5 

8755 

1 1 ,38 % 

Continuer 

3 

1 

26,5 % 

10,64% 

Continuer 

2 

13,5% 

11,91 % 

Continuer 

3 

12,5% 

11,10% 

Continuer 

4 

29,3 % 

10,38% 

Continuer 

5 

18,1 % 

9,95 % 

Accorder 

4 

1 

30,4 % 

9,70 % 

Accorder 

2 

577"% 

17,62% 

Refuser 

3 

97T% 

1 1 ,02 % 

Continuer 

4 

21,8% 

1 1 ,36 % 

Continuer 

5 

28,9 % 

11,18% 

Continuer 

5 

1 

29,4 % 

1 1 ,40 % 

Continuer 

2 

ÎT57S 

14,50 7= 

Continuer 

3 

n,i % 

1 1 ,08 % 

Continuer 

4 

16,7% 

9,79 % 

Accorder 

5 

31,0% 

9,56 % 

Accorder 


TAB. 12.2 Évolutions probables du questionnaire en posant Q01 


1 

cm 

i 

1 

1 
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Age 

Q03 

P(Q03 | Age) 

P ( MP | Age, Q03) 

Résultat(Q03) 

1 

1 

25,7 % 

17,23% 

Refuser 

2 

23,2 % 

14,6/ % 

Continuer 

3 

28,0 % 

16,4/ % 

Refuser 

4 

20,8 % 

9,83 % 

Accorder 

5 

2 T% 

19,06% 

Refuser 

2 

1 

21 ,8 % 

1 1 ,82 % 

Continuer 

2 

12,8% 

12,33% 

Continuer 

3 

13,0% 

1 4,98 % 

Continuer 

4 

25,4 % 

1 1 ,80 % 

Continuer 

5 

26,1 % 

12,77 % 

Continuer 

3 

1 

21 ,8 % 

1 1 ,54 % 

Continuer 

2 

1 1 ,2 % 

16,27% 

Refuser 

3 

13,2% 

9,10% 

Accorder 

4 

16,7% 

10,25% 

Continuer 

5 

37,1 % 

9,50 % 

Accorder 

4 

1 

47,8 % 

10,54% 

Continuer 

2 


17,99% 

Refuser 

3 

ÏÏJVo 

10,14% 

Continuer 

4 

10,7% 

16,87% 

Continuer 

5 

24,8 % 

8,80 % 

Accorder 

5 

i 

71,6% 

11,69% 

Continuer 

2 

16,4% 

8,09 % 

Accorder 

3 

7,2 % 

5,12% 

Accorder 

4 

1,1 % 

16,61 % 

Refuser 

5 

3,7 % 

17,59% 

Refuser 


TAB. 12.3 Évolutions probables du questionnaire en posant Q03 


Ce questionnaire fonctionne comme suit : 

• Un score (probabilité d'être mauvais payeur) d'acceptation anticipée 
est fixé (SI). 

• Un score de rejet anticipé est fixé (S2). 

Par exemple, si la probabilité a priori d'être mauvais payeur est égale à 
12,5 %, on peut choisir 15 % comme seuil de rejet anticipé, et 10 % comme 
seuil d'acceptation anticipée. Cela signifie que l'on ne continue à poser des 
questions que tant que P(MP | ReponsesDejaObtenues) se situe entre ces 
deux limites. Dès que l'une des deux limites est franchie, on prend la déci- 
sion correspondante, et on termine le questionnaire. 

Pour comprendre le principe de cette méthode, étudions le cas suivant. 
Supposons que la réponse à la question « Âge » soit déjà connue. Essayons 
de comparer la question Q01 et la question Q02. 

Le tableau 12.2 page précédente (établi pour Q01) montre les évolutions 
possibles du questionnaire si l'on pose Q01. Ces évolutions dépendent de 
la réponse déjà obtenue à la question « Âge ». Supposons que la réponse 
obtenue à cette question était « Âge = 1 ». Dans ce cas, si on choisit de po- 
ser Q01, le questionnaire sera arrêté avec un refus si l'on obtient la réponse 
« Q01 = 1 », soit dans 47,2 % des cas. 

Le tableau 12.3 (établi pour Q03) permet de comparer l'intérêt respectif 
des deux questions. De même, toujours dans le cas où la réponse obtenue 
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à la question « Âge » était « Âge = 1 », le questionnaire sera arrêté par un 
refus dans 56 % des cas, et par un accord dans 20,8 % des cas. Finalement, 
si « Âge = 1 », poser Q01 conduit à continuer le questionnaire dans 52,8 % 
des cas, alors que si l'on pose plutôt la question Q03, on aura à continuer 
le questionnaire dans seulement 23,2 % des cas. Poser la question Q03 est 
donc préférable dans ce cas. 

Le choix de la question la plus intéressante dépend bien sûr des ré- 
ponses précédemment obtenues, comme le montre le tableau 12.4. Ainsi, 
dans le cas où la réponse à la question « Âge » était 1, 3 ou 4, poser la 
question Q03 est plus avantageux que de poser la question Q01. C'est le 
contraire dans le cas où la réponse était 5, et les deux questions sont indif- 
férentes si la réponse à la question « Âge » était 2. 


Âge 

Probabilité de terminer le 

Probabilité de terminer le 

Question choisie 

questionnaire en posant Q01 

questionnaire en posant Q03 

1 

47,2 % 

76,8 % 

Q03 

2 

0% 

0% 

?? 

3 

18,1 % 

61 ,5 % 

0Ô3 

4 

40,1 % 

43,9 % 

SÜ3 

5 

47,7 % 

28,4 % 

Q01 


TAB. 12.4 Choix entre Q01 et Q03 


L'algorithme permettant de dérouler le questionnaire adaptatif est alors 
présenté dans la figure 12.6 . 


TantQue Proba(MP) est comprise entre SI et S2, Faire 

Parmi les questions non encore posées, Trouver celle qui apporte le 
plus d’information 

Poser la question 
Calculer la nouvelle probabilité MP 
Fin TantQue 


FlG. 12.6 Algorithme du questionnaire adaptatif 


Précisons la notion de question la plus informative utilisée dans cet al- 
gorithme. Pour chacune des questions restant à poser, on évalue la probabi- 
lité que cette question permette de trancher. L'algorithme de la figure 12.7 
ci-après montre le principe de cette évaluation. 

Comme nous l'avons déjà vu plus haut, il est important de noter que 
cette évaluation se fait dynamiquement dans un contexte donné, c'est-à- 
dire lorsque certaines questions sont déjà renseignées. En effet, dans ce cas, 
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non seulement la distribution de probabilité BP/MP est modifiée, mais éga- 
lement la distribution de probabilité des réponses aux questions restantes. 


lnfo(Q)=0 

Pour R décrivant les réponses possibles à Q : 

Calculer la probabilité d’obtenir la réponse R (P(R)) 
Faire l'hypothèse de la réponse R 
Si cette hypothèse permet de décider 
(accord ou refus anticipé) 

Incrémenter Info(Q) : Info(Q) = lnfo(Q)+ P(R) 
FinSi 
FinPour 


FlG. 12.7 Calcul de l'apport d'information d'une question Q 


Comme dans toute méthode de recherche de séquence optimale, l'op- 
timisation du premier terme seul est sous-optimale (même si Q1 est la 
meilleure prochaine question à poser, la séquence Q2-Q4 peut être meilleure 
que la séquence composée de Q1 et de la meilleure question à poser après 
Ql). Cependant, la recherche de la séquence optimale de questions est un 
problème NP-complet (car elle implique une séquence d'inférences, cha- 
cune étant un problème NP-complet), et on est donc contraint d'utiliser 
des méthodes heuristiques. 

On pourrait envisager d'améliorer le critère heuristique utilisé. En ef- 
fet, en début de questionnaire, dans les situations où aucune question ne 
permet de trancher, la question posée est choisie au hasard, ou simplement 
celle qui apparaît en dernier dans l'ordre d'examen des questions. La me- 
sure de la qualité des questions pourrait donc plutôt intégrer un écart par 
rapport à la situation de décision. On pourrait par exemple adopter la règle 
suivante : 

• Si une ou plusieurs questions permettent de trancher dans certains 
cas, choisir celle qui maximise la probabilité de telles situations. 

• Si aucune question ne permet de trancher, choisir celle qui minimise 
l'écart des réponses à la zone de décision. 


12.3 Résultats et conclusion 


L'utilisation du questionnaire adaptatif a permis de répondre à l'objectif 
fixé. En moyenne, seulement 8,5 questions sont posées, contre 14 au total 
sans l'utilisation de questionnaire adaptatif. Le taux d'erreurs observé par 
rapport à l'utilisation d'un questionnaire complet était d'environ 5 %. Les 
taux d'erreurs s'interprètent comme suit : 
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0 

Proba MP 

T 


P s 

2 

l[ 

situations possibles si on pose Q 



◄-I 

situation avant Q 

Principe de l’évaluation de l’apport d’une question Q. Avant de poser Q, la probabilité 
MP est dans la zone d’incertitude. Si l’on pose Q , l’inférence dans le réseau bayésien 
indique que deux réponses permettraient de trancher. Or la probabilité d’obtenir ces 
réponses peut être évaluée : l’apport en information de Q sera donc la probabilité 
de pouvoir trancher si l’on pose Q. Cette probabilité dépend bien sûr des réponses 
obtenues avant Q. 


FlG. 12.8 Représentation graphique de l'algorithme 


• Le taux d'erreurs global est la proportion de cas où la décision du 
score partiel diffère de la décision du score total. 

• Le taux d'erreurs BP (respectivement MP) est la proportion de cas 
d'individus identifiés comme BP (respectivement MP) où la décision 
du score partiel diffère de la décision du score total. 


Cette étude a permis de valider l'utilisation des réseaux bayésiens com- 
me modèle de score. Elle a également permis de valider le principe du ques- 
tionnaire adaptatif qui autorise un gain de près de 40 % en temps, sans 
perte significative de performances. De plus, les algorithmes utilisés (ap- 
prentissage et inférence dans un réseau en forme d'arbre) fonctionnent en 
temps polynomial, ce qui garantit des temps de réponse compatibles avec 
une exploitation en temps réel. 


Nombre moyen de questions 

8,5 

Taux de questionnaires complets 

35% 

Nombre moyen de questions pour les questionnaires partiels 

6,5 

Erreurs par rapport au score complet 

5,1 % 

Erreurs par rapport au score complet (BP) 

5,1 % 

Erreurs par rapport au score complet (MP) 

4,6 % 


Une propriété intéressante et imprévue de cette méthode est sa moindre 
transparence vis-à-vis de la concurrence. En effet, mettre en ligne un score 
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0 si P S2 

i i i 

Proba MP 


■* — situations possibles si on pose Q1 
♦ — situations possibles si on pose Q2 


Dans le cas où aucune question ne permet de trancher ; dans aucun cas , un autre 
critère peut permettre de les différencier ; par exemple la distance à des situations de 
décisions : ici on préférerait poser Q1 que Q2. 


♦ 4 4 » 


FlG. 12.9 Amélioration possible de l'algorithme de recherche 

permet en principe à un concurrent indélicat et patient de retrouver par 
tâtonnements la formule de score utilisée. L'utilisation d'un questionnaire 
adaptatif rend cet exercice beaucoup plus difficile. 

Il reste néanmoins un certain nombre de points à améliorer ou à étudier. 
En ce qui concerne l'algorithme du questionnaire adaptatif proprement dit, 
on détermine aujourd'hui la question à poser en calculant la proportion 
de situations où une décision sera possible. Ce critère est discontinu, et 
pourrait être amélioré, comme on l'a vu ci-dessus. 

Un problème un peu plus délicat est la qualité des dossiers recueillis en 
utilisant ce modèle. En effet, en utilisant un tel modèle, on va par construc- 
tion recueillir des dossiers partiels, puisque la décision d'acceptation ou de 
rejet va être prise en général avant d'obtenir toutes les informations sur le 
demandeur. Même si les réseaux bayésiens permettent de gérer l'apprentis- 
sage à partir de bases de données incomplètes (voir section 6.1.2 page 121), 
nous n'avons pas un recul suffisant sur l'effet de ce recueil partiel sur la 
construction des scores. 

Cette utilisation des réseaux bayésiens comme support d'un question- 
naire adaptatif peut se généraliser facilement à d'autres applications. Dans 
les centres d'appels, pour l'information ou le dépannage d'un client, l'uti- 
lisation d'un mode de dialogue adaptatif peut aider à optimiser le compro- 
mis entre la satisfaction du client et la durée de l'appel. Cette démarche a 
été industrialisée par la société Hugin, qui propose aujourd'hui un outil ap- 
pelé Hugin Advisor. Il permet de mettre facilement en œuvre un système 
de dialogue adaptatif basé sur des réseaux bayésiens, dans des applications 
de centres d'appels, de diagnostic, ou de dépannage. Nous avons déjà évo- 
qué ce logiciel dans le chapitre 8 page 213. 
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Chapitre 13 


Étude de cas n°5 : gestion de 
ressources naturelles et 
analyses de risques 


Ce chapitre a été rédigé par Bruce G. Marcot (bmarcotS f s . f ed . us) USDA Forest Service, 
Pacific Northwest Research Station, 620 SW Main St., Suite 400, Portland OR 97205, États- 
Unis. 


Les réseaux bayésiens ont été utilisés depuis quelques années comme 
modèles prévisionnels ou explicatifs dans les domaines de la gestion de res- 
sources naturelles, des études de la faune et de la flore, et de l'aménagement 
du territoire. Ces domaines sont caractérisés par des problèmes complexes 
de détermination de stratégies ou d'activités visant à satisfaire au mieux 
des objectifs (environnementaux et sociaux) multiples et parfois contradic- 
toires. Il peut s'agir, par exemple, de conserver ou de rétablir la diversité 
biologique d'écosystèmes forestiers natifs tout en fournissant, à partir de 
ces mêmes forêts, une large variété de biens et de services comme la pro- 
duction de bois, les loisirs, l'eau potable et le fourrage pour le bétail. De tels 
problèmes sont mal conditionnés, c'est-à-dire qu'il n'existe pas une unique 
solution optimale. 
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Les réseaux bayésiens sont utilisés par certains écologistes pour repré- 
senter la réaction d'espèces animales ou végétales à des conditions chan- 
geantes et également comme outils d'aide à la décision pour aider les res- 
ponsables à évaluer les implications (notamment les coûts et les bénéfices) 
d'actions de gestion de ressources naturelles ainsi que pour suggérer les 
meilleures séquences de décisions [Var97], Certains auteurs ont développé 
des systèmes consultatifs, sous forme de réseaux bayésiens comprenant 
des nœuds d'utilité et de décision. Ces systèmes consultatifs sont utilisés 
pour étudier les conséquences de décisions de gestion et pour déterminer 
le meilleur ensemble de décisions pour obtenir certains résultats. 

Comme exemples de réseaux bayésiens utilisés comme outils d'aide à 
la décision, nous pouvons citer l'utilisation de systèmes consultatifs : 

• pour aider la gestion de la régénération d'une forêt [Haa91] ; 

• pour aider la prise de décision de gardes forestiers [Haa92] ; 

• pour prévoir la qualité de systèmes aquatiques pour la gestion d'une 
exploitation piscicole [Rec99, KHG+99, SCROO] ; 

• pour aider à évaluer la restauration de l'habitat pour des espèces 
rares [WRW+02] ; 

• pour une gestion de l'eau intégrée [BJC + 05]. 

Dans ces exemples, c'est le spécialiste de la ressource, c'est-à-dire l'hy- 
drologiste ou l'écologiste, qui développe et exploite le réseau bayésien pour 
évaluer les effets d'actions (dans une démarche d'analyse de risques), et qui 
ensuite informe les décideurs, tels que les responsables d'agences gouver- 
nementales, dont le rôle est de choisir un plan d'action (dans une démarche 
de gestion de risques). 

Ce chapitre passe en revue des utilisations de réseaux bayésiens pour 
la gestion de ressources naturelles, de la faune et de la flore. Il présente 
des exemples de réseaux bayésiens développés pour étudier et gérer des 
espèces rares, leur habitat et les ressources forestières, principalement dans 
l'ouest du continent nord-américain. 


13.1 Revue des méthodes 


Ce paragraphe explique l'intérêt des réseaux bayésiens pour la gestion 
de ressources naturelles et examine différentes méthodes et approches de 
modélisation utilisées dans ce domaine. 
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13.1.1 Pourquoi les réseaux bayésiens ? 

Les réseaux bayésiens présentent pour certaines utilisations des avan- 
tages notables sur d'autres modèles [MHR + 01]. Ils constituent un support 
de communication qui montre clairement comment, par exemple, les condi- 
tions d'habitat influencent les populations d'animaux ou de végétaux. Ils 
sont également un moyen de combiner : 

• une connaissance préalable avec une information nouvelle ; 

• des variables catégorielles, ordinales ou continues ; 

• des données empiriques et des jugements d'experts. 

Les responsables et les décideurs apprécient souvent, dans une approche 
par réseau bayésien, le fait que les résultats apparaissent sous forme de lois 
de probabilité qui mettent en évidence les incertitudes. Ces représentations 
sont adaptées aux contextes d'analyse de risques et de gestion de risques. 
La combinaison de ces caractéristiques - dont certaines peuvent être as- 
surées par d'autres techniques - rend les réseaux bayésiens particulière- 
ment intéressants aussi bien pour les spécialistes que pour les responsables 
de la gestion de ressources naturelles. D'autres approches de modélisation 
peuvent compléter l'utilisation de réseaux bayésiens : les techniques statis- 
tiques traditionnelles, les méthodes d'ordination et de corrélation, et aussi 
les autres modes de représentation d'avis d'experts tels que les modèles de 
logique floue, les réseaux neuronaux ou les systèmes experts. 

13.1.2 Méthodes de création de réseaux bayésiens 

La construction de réseaux bayésiens s'effectue, comme dans d'autres 
domaines, en plusieurs étapes : 

• énumération des variables qui influencent le plus certaines variables 
dites variables de résultat ; 

• identification des états ou les valeurs que chaque variable peut prendre 

• structuration du modèle (on relie les variables) ; 

• évaluation des probabilités associées aux liens. 


► Utilisation de diagrammes d'influence 

Les trois premières étapes reviennent à construire un diagramme de 
bulles et de flèches montrant les relations et les causalités entre variables, 
que nous appellerons dans ce chapitre diagramme d'influence. Il est judicieux 
d'utiliser différentes formes de bulles et de flèches pour différencier les 
variables directement mesurées, les variables latentes, les variables calcu- 
lées, les corrélations, les relations causales directes et les influences inexpli- 
quées [Mar06b], 
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Typiquement, un tel diagramme d'influence est utilisé pour montrer 
comment les conditions d'habitat et l'environnement influencent les es- 
pèces et les ressources. 


► Probabilités associées aux variables 

Lorsque les principales variables et relations sont identifiées, des pro- 
babilités peuvent être attribuées à chaque variable. Les variables qui ne 
sont influencées par aucune autre variable sont appelées variables sans pa- 
rent (ou variables d'entrée) ; leurs états ou valeurs sont décrits selon une loi 
de probabilité a priori (ou inconditionnelle). Les variables qui sont influen- 
cées par d'autres variables sont appelées variables enfants (et les variables 
qui les influencent variables parentes) ; leurs états ou valeurs sont décrits 
par des lois de probabilité conditionnelles. Le réseau bayésien dans son en- 
semble est résolu par un processus de mise à jour bayésienne, ce qui revient 
à calculer la loi de probabilité a posteriori des variables de sortie. 


► Construction de réseau bayésien à partir d'expertise ou de données 

Un réseau bayésien peut être construit soit à partir d'un ensemble de 
données, soit à partir de jugements d'experts, soit à partir d'une combinai- 
son des deux. Cela s'applique aussi bien à la définition de la structure du 
réseau bayésien qu'à la définition des lois de probabilité a priori et condi- 
tionnelles des nœuds d'entrée et des nœuds enfants du modèle. 

N'utiliser que des ensembles de données empiriques pour construire et 
paramétrer un réseau bayésien est un cas d'induction de règles, c'est-à-dire 
qu'on utilise les données pour identifier des liens entre variables et leurs 
lois de probabilité. L'expérience montre que dans la gestion de ressources 
naturelles, n'utiliser que l'induction de règles amène à s'ajuster avec les 
données de manière excessive : on tend à créer un modèle qui n'est perti- 
nent que pour traduire les données historiques et qui ne peut pas être utilisé 
pour prévoir d'autres circonstances [Cla03]. De plus, l'induction de règles 
fait abstraction de la richesse de la connaissance des experts, qui peut être 
très utile pour construire des modèles prévisionnels robustes. 

Cela dit, si le modèle est construit uniquement à partir de jugements 
d'experts, le modèle n'est autre qu'un système de croyances [New94], à 
moins qu'il ne soit revu par des pairs ou, si possible, calibré et validé par 
des données externes. Les défis à relever dans la modélisation de la faune, 
de la flore et des ressources naturelles sont justement que : 

• on dispose rarement d'ensembles de données empiriques robustes et 
de grande taille ; 
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• les experts sont souvent en désaccord concernant le réseau causal 
d'influences de l'habitat et de l'environnement sur les espèces ani- 
males et végétales ; 

• les écosystèmes sont généralement des systèmes ouverts dans les- 
quels le contexte et les facteurs d'influence tendent à évoluer au cours 
du temps. 



FlG. 13.1 Processus général de modélisation d'espèce rares à l'aide de réseaux bayé- 
siens [MarOôa] 


L'expérience montre que la meilleure approche pour construire des ré- 
seaux bayésiens est d'utiliser des jugements d'experts avec des revues de 
pairs pour structurer le modèle ; puis d'utiliser une combinaison de juge- 
ments d'experts et de données empiriques pour préciser les distributions 
de probabilité de chaque nœud, et ensuite d'utiliser un ensemble de don- 
nées empiriques indépendantes pour tester, calibrer, valider et affiner le 
modèle. Cette démarche est représentée par le schéma de la figure 13.1 . 

De cette façon, le modèle atteint un équilibre acceptable entre robus- 
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13.1. Revue des méthodes 


tesse et précision. Bien sûr, chaque modèle et chaque circonstance peuvent 
nécessiter un équilibre différent selon le but, l'audience et la disponibilité 
des experts et des ensembles de données. Cette procédure a été utilisée avec 
succès pour créer et appliquer des réseaux bayésiens pour prévoir la pré- 
sence d'espèces animales et végétales rares, selon l'environnement local et 
les conditions d'habitat [Mar06a], 

► Utilisation de variables proxy 

L'introduction de variables proxy est caractéristique des réseaux bayé- 
siens pour la gestion de ressources naturelles, lorsqu'on est en présence 
d'une variable causale X (nœud d'entrée) pour laquelle aucune donnée em- 
pirique n'est disponible. 

Le principe est d'identifier une ou plusieurs variables qui influencent X 
(et pour lesquelles des données sont disponibles) et de se donner arbitrai- 
rement une loi de probabilité conditionnelle pour X. 

Pour illustrer la notion de variable proxy, prenons l'exemple d'un pro- 
jet concernant la partie intérieure de l'ouest des États-Unis. Dans ce projet, 
qui sera décrit au paragraphe 13.2 ci-après, 118 réseaux bayésiens ont été 
créés pour modéliser la réponse d'espèces animales et végétales à différents 
modes de gestion et d'aménagement de l'écosystème [MH R 01, RWR : 01 ]. 
Dans la construction de ces modèles, des variables proxy ont été utilisées 
pour représenter des variables causales plus directes, pour lesquelles on 
ne disposait pas de données. Par exemple, certaines espèces comme le car- 
cajou ( Gulo Gulo) et le lynx du Canada (Lynx canadensis) sont sensibles au 
dérangement causé par les routes. Cependant, aucune donnée n'était dis- 
ponible concernant la perturbation des routes en tant que telle, personne 
n'ayant jamais recueilli de données empiriques concernant cette variable 
pour ces espèces. C'est pourquoi la perturbation des routes a été modélisée 
comme une combinaison de densité de routes et de densité de population 
humaine, paramètres pour lesquelles nous avions des données dans notre 
système d'information géographique. 

Dans le modèle de la figure 13.2 ci-après, les états des variables sont 
définis quantitativement, par exemple la valeur « Moderate » de la densité 
routière correspond à 0,4 à 1,1 km/km 2 . Dans ce sous-modèle, puisque ce 
sont les humains (et non nécessairement les routes en tant que telles) qui 
engendrent le stress sur ces espèces, la variable de densité humaine pesait 
plus fortement que la densité routière dans la table de probabilités des ef- 
fets de la route. Les probabilités de la densité de route et de population 
présentées dans la figure 13.2 ci-après sont uniformes, décrivant l'incerti- 
tude complète, mais elles ont été précisées pour chaque sous-bassin étudié ; 
elles peuvent aussi être paramétrées avec des distributions de fréquence de 
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FlG. 13.2 Exemple de sous-modèle des effets d'une route avec des variables décrivant la 
densité du réseau routier et de la population, utilisé pour les modèles de prévi- 
sion de faune et défloré dans l'intérieur de l’ouest des États-Unis. 


route et de population observées dans l'ensemble des sous-bassins pour 
prévoir l'effet global de la perturbation des routes dans la région. Ensuite, 
quand le modèle d'une espèce quelconque nécessitait ce type de variable 
de perturbation humaine, il suffisait d'introduire le sous-modèle à partir de 
la librairie proxy. Dans le projet, une bibliothèque de variables proxy a été 
créée, constituant des sous-modèles qui ont été utilisés pour les attributs 
spécifiques d'habitat de chaque espèce. 


13.2 Exemples de réseaux bayésiens 

13.2.1 Modèles de prévision pour la faune et la flore 

► Modélisation des musaraignes pygmées dans le bassin intérieur de 
la Colombie Britannique (États-Unis) 

Le premier exemple de modèle pour la faune et la flore que nous présen- 
tons dans ce chapitre a été développé dans le cadre d'un projet concernant 
la gestion de l'écosystème du bassin intérieur de la Columbia 1 (le projet 
mentionné ci-dessus). Ce projet baptisé ICBEMP concernait la partie inté- 
rieure (orientale) de la chaîne des Cascades 2 . Le but du modèle était de 
prévoir la qualité d'habitat et la taille de la population des musaraignes 

1 Fleuve de 1857 km qui traverse l'ouest du continent Nord- Américain. 

2 Montagnes de l'ouest des États-Unis et du Canada, dont le point culminant a une alti- 
tude de 4391 mètres. 
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pygmées ( Microsorex hoyï), un mammifère natif rare qui vit dans la partie 
nord de l'intérieur de l'ouest des États-Unis. Les musaraignes pygmées, 
qui sont probablement les mammifères vivants les plus légers, sont l'une 
des espèces des zones humides dont la préservation a suscité l'intérêt des 
pouvoirs publics. 

Pour construire le modèle des musaraignes pygmées, un panel d'ex- 
perts en mammifères a été réuni pour déterminer les variables clés concer- 
nant cette espèce. Les experts ont établi que les variables environnemen- 
tales clés étaient notamment : le type de substrat (terriers, grosses bûches 
sur le sol, couches organiques dans lesquelles les musaraignes creusent des 
tunnels) ; le macro-environnement (flaques, marais, prés humides) et la pré- 
sence de nourriture (insectes et autres petits animaux). Ensuite ces variables 
ont été reliées sous forme d'un diagramme d'influence représentant un ré- 
seau causal (figure 13.3 ). 


( Down Logs. Oiganic Layer ') ( Wet Meadows ) 


c^/c^A Proxy for Food Availability ) 
( Substrates ) ( Macroenvironments ) ( Food Availability j 


( Pygmy Shrew Habitat ) 


C Pygmy Shrew Population Size ) 


FlG. 13.3 Modèle de prévision de la qualité d'habitat et de la taille de popidation des 
musaraignes pygmées (Microsorex hoyij dans l'intérieur de l'ouest des États- 
Unis. 


Ce diagramme d'influence montre les principales variables d'environ- 
nement et d'habitat qui influencent la qualité d'habitat et la taille de la 
population.. Pour chaque variable, les ensembles d'états les plus simples 
possibles ont été retenus, par exemple, la présence ou l'absence d'éléments 
d'habitat. Des avis d'experts ont été utilisés pour déterminer les distribu- 
tions de probabilité des variables, créant ainsi un réseau bayésien fonction- 
nel (figure 13.4 ci-après). Le réseau bayésien a ensuite été utilisé pour pré- 
voir la qualité d'habitat et la taille de la population des espèces dans chaque 
sous-bassin de la région. 


Pour simplifier la détermination des tables de probabilité, les variables 
continues ont été transformées en variables discrètes à deux ou trois états. 
Par exemple, la variable « taille de la population des musaraignes pyg- 
mées » (variable A dans la figure 13.4 ci-après) n'avait que deux états 
« Small » et « Large ». Cette discrétisation s'est révélée satisfaisante dans 
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ce projet d'aide à l'aménagement du territoire - de toutes façons les don- 
nées n'étaient pas suffisantes pour prédire des états plus détaillés. Dans 
ce modèle, une grande population de musaraignes pygmées signifie qu'on 
trouve un habitat pleinement adéquat. De cette façon, le modèle était simple, 
compréhensible, et ne nécessitait pas de données quantitatives sur la popu- 
lation. 



FlG. 13.4 Utilisation du modèle de prévision de la qualité d'habitat et de la taille de popu- 
lation des musaraignes pygmées (Microsorex hoyi) dans l’intérieur de l'ouest 
des États-Unis. 


► Modélisation de la grouse cendrée dans le bassin intérieur de la Co- 
lumbia (États-Unis) 

Les résultats des modèles ont été cartographiés dans le système d'infor- 
mation géographique (figure 13.5 ci-après) et interprétés en termes d'es- 
pérance de population de grouse cendrée, sous des conditions historiques, 
actuelles et potentielles (gestion alternative) dans le projet ICBEMP ( Inter - 
ior Columbia Basin Ecosystem Management Project.). Trois catégories de qua- 
lité d'habitat (zéro, basse, haute) sont calculées avec le modèle qui combine 
les influences des habitats (herbages et steppe arbustive) avec les perturba- 
tions humaines [RWR + 01]. Le résultat de population était discrétisé en cinq 
classes : continue, bien distribuée, ayant une haute probabilité de persis- 
tance, parsemée, fortement isolée, ayant une forte probabilité d'extinction 
locale. 

Le modèle a été validé dans [WWR + 02], où sont comparées des prévi- 
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Alternative S2 


FlG. 13.5 Exemples de cartes des résultats d'un réseau bayésien modélisant la qualité de 
l'habitat pour la grouse cendrée dans l'intérieur de l’ouest des États-Unis. 


sions sur certains sites à des états de population connus. La validation a été 
effectuée en comparant des prévisions de réponses de population à des dis- 
tributions historiques ou actuelles des espèces séparément pour la région 
actuellement occupée et inoccupée par l'espèce. Les résultats de la valida- 
tion ont montré que les réseaux bayésiens pour la grouse cendrée produi- 
saient des prévisions cohérentes pour la distribution actuelle (la fiabilité 
pour les distributions futures ne pouvant bien sûr pas être testée). Les ré- 
sultats globaux ont montré que le modèle pouvait être utilisé de façon fiable 
pour évaluer la gestion de territoires publics selon l'impact sur l'habitat de 
cette espèce. Il en a été conclu que les résultats des réseaux bayésiens pour 
les autres espèces évaluées dans le projet, qui avaient été construits selon 
les mêmes méthodes, étaient également dignes de confiance. 

► Faune et flore du Nord-Ouest Pacifique des États-Unis 

En 1994, un projet important d'aménagement du territoire, le Plan des 
Territoires Publics de la forêt du Nord-Ouest (ouest des états de Washing- 
ton et de l'Oregon, et nord-ouest de l'état de Californie), a établi de nom- 
breuses réserves dans les forêts de fin de succession et anciennes 3 , pour la 

3 Les forêts de fin de succession et les forêts anciennes sont caractérisées par des arbres 
matures de grand âge et de grande taille. Dans cette région, les forêts de fin de succession 
ont des conifères de 80 à 180 ans et de 50 à 75 centimètres de diamètre et avec une structure 
de canopée simple ; les forêts anciennes ont des arbres plus vieux, plus grands et avec une 
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conservation de centaines de végétaux, d'espèces animales et de commu- 
nautés écologiques 4 . Une partie du projet consistait à faire un relevé de la 
présence de ces espèces rares et peu connues dans les endroits situés en 
dehors des réserves et où l'exploitation forestière et les autres activités de 
gestion de la forêt étaient susceptibles de laisser la place à d'autres activités 
(par exemple, la sylviculture commerciale). Le but du relevé était de dé- 
terminer si les espèces étaient présentes et, le cas échéant, de modifier les 
activités de gestion de manière à assurer leur persistance. 

Pour établir une liste de priorités des sites pour les relevés, une série de 
réseaux bayésiens a été créée pour prévoir la probabilité d'occurrence d'es- 
pèces sélectionnées - étant données les conditions d'habitat - sur les sites 
qui pouvaient être affectés par les activités de gestion proposées. Parmi les 
espèces rares modélisées, il y avait deux champignons, trois lichens, une 
mousse, deux plantes vasculaires, deux mollusques (limaces), un amphi- 
bien (salamandre) et un mammifère (campagnole). 

Le modèle correspondant à une espèce de champignon appelée san- 
dozi duveteux ( Bridgeoporus nobïlissimus) présente la particularité d'avoir 
été testé et validé rigoureusement à partir de données de relevés de ter- 
rain [Mar06a], Comme pour les autres modèles évoqués ci-dessus, le mo- 
dèle des champignons a été développé en consultation avec un spécialiste 
de l'espèce et réexaminé par un autre spécialiste. Puis, des données de ter- 
rain ont été utilisées pour évaluer la précision des prévisions du modèle. 
La précision a été évaluée en comparant les résultats les plus probables 
(absence ou présence de l'espèce) calculés par le modèle avec les données 
réelles du terrain, sous certaines conditions connues. La précision a été re- 
présentée dans une matrice de confusion qui recense le nombre de cas de 
prévision correcte et incorrecte de présence ou d'absence. Dans ce cas, il 
s'est avéré que le modèle a prévu correctement la totalité des 31 cas de pré- 
sence de l'espèce, mais seulement 3 des 14 cas d'absence de l'espèce. Cette 
surestimation de la présence, cependant, n'a pas été considérée comme po- 
sant problème. Le modèle était conçu pour établir une liste de priorités de 
sites pour des relevés de l'espèce, donc ces faux positifs ont parfois entraîné 
des relevés là où l'espèce est absente. En revanche, manquer des relevés là 
où l'espèce est présente aurait pu avoir pour conséquence l'extinction lo- 
cale de cette dernière. 

À travers le Nord-Ouest Pacifique et l'intérieur de l'ouest des États- 
Unis, d'autres réseaux bayésiens ont été développés et utilisés pour étudier 
le carcajou [RJJ + 03], la chauve-souris à grandes oreilles ( Corynorhinus town- 
sendii ; [MH R 01 ]), des salmonidés [LR97] dont l'omble à tête plate (Sal- 


structure de canopée plus complexe. 

4 Ce terme désigne un ensemble d'espèces présentes dans un endroit donné, considéré 
du point de vue des interactions entre espèces et des rôles écologiques de chaque espèce. 
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velinus confluentus ; [LeeOO]) et le saumon rouge du Fraser 5 ( Oncorhynchus 
nerka ; [SCROO]). D'autres réseaux bayésiens pour l'habitat des espèces ont 
été développés pour identifier les sites prioritaires pour une espèce de pa- 
pillon rare, le skipper de Mardon ( Polites mardori), dans des régions dis- 
jointes de l'état de Washington et du sud de l'Oregon [Mar05]. 


► Faune et Flore de l'Ouest du Canada 

Des réseaux bayésiens ont été développés et utilisés pour plusieurs au- 
tres espèces animales terrestres de l'Ouest du Canada. On peut citer, en par- 
ticulier, des modèles de prévision de la probabilité de capture d'écureuils 
volants du Nord (grand polatouche, Glaucomys sabrinus ; [Mar06a]), la qua- 
lité d'habitat de caribous des forêts ( Rangifer tarandus caribou ; [MMBE06]) 
et les évolutions des populations de guillemots marbrés ( Brachyramphus 
marmoratus ; [SSA06]). D'autres réseaux bayésiens ont été créés pour dres- 
ser la carte des frontières d'écosystème [Wal04, WM06]. 

Tous ces réseaux bayésiens ont été structurés et paramétrés à partir 
d'une combinaison de jugements d'experts et de données de terrain, mais 
ils présentaient des différences notables. Par exemple, les modèles de po- 
pulation du guillemot marbré, un petit oiseau de mer qui niche dans la 
canopée de forêts anciennes intérieures, étaient développés pour prévoir la 
persistance et la résilience 6 de la population en modélisant la démographie 
et les statistiques vitales de la population par classe d'âge. Les modèles du 
caribou ont été créés pour déterminer si les quatre régions saisonnières de 
l'espèce (région hivernale où ils trouvent du lichen de pin après la période 
de rut, région d'hiver de haute altitude, région d'été où les femelles mettent 
bas en été, et région de migration intersaisonnière) étaient adaptées, ainsi 
que pour étudier la réponse de l'espèce au risque de prédation des loups 
(Canis lupus ) dans divers scénarios de gestion de la forêt. 


13.2.2 Utilisation de réseaux bayésiens pour la rétrovision 

Dans le contexte de ce chapitre, la rétrovision désigne l'identification des 
circonstances probables (comme l'environnement ou les conditions d'habi- 
tat) qui ont produit un résultat donné, comme par exemple la présence ou 
l'abondance d'une espèce animale ou végétale. Un réseau bayésien modé- 
lisant les relations entre la faune et l'habitat peut être utilisé pour préciser 
des conditions d'habitat et prévoir la réponse de la faune et de la flore ; 
cependant si la réponse est connue ou si l'on fait une hypothèse sur cette 

5 Fleuve prenant sa source dans les Rocheuses et traversant la Colombie-Britannique. 

6 Aptitude à rebondir si la taille de la population régresse. 
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FlG. 13.6 Prévision de la qualité d'habitat et de la taille de population des musaraignes 
pygmées (Microsorex hoyij. 


réponse, alors le modèle peut être utilisé à l'envers pour déterminer les 
conditions a priori les plus probables qui ont pu conduire à cette réponse. 
En cela, les réseaux bayésiens apportent une fonction unique par rapport 
à d'autres modèles plus traditionnels utilisant strictement les statistiques 
multivariées, des équations mathématiques, ou la simulation temporelle. 

Résoudre un réseau bayésien à l'envers consiste essentiellement à fixer 
la valeur d'un résultat et à examiner les valeurs les plus probables de tous 
les noeuds d'entrée. Prenons l'exemple du modèle des musaraignes pyg- 
mées : on peut fixer le nœud d'habitat à sa valeur adéquate et déterminer 
les valeurs les plus probables des conditions environnementales et d'habi- 
tat qui ont permis un habitat adéquat. La figure 13.6 montre un tel réseau 
utilisant la rétrovision : l'état adéquat du nœud condition d'habitat des mu- 
saraignes (case F) est forcé. 

En procédant ainsi, on est amené à penser que l'habitat est pleinement 
adéquat quand des terriers, de grosses bûches et des couches organiques 
dans le sol sont présents ; quand des ruisseaux, marais et des prés humides 
sont présents ; quand la nourriture, en particulier des larves invertébrées, 
est importante. Dans un modèle plus quantitatif, cette résolution à l'en- 
vers permettrait d'identifier des valeurs numériques, des niveaux ou des 
densités pour chaque variable environnementale. Cependant, même dans 
un modèle qualitatif comme celui-ci, la résolution à l'envers peut être utile 
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Nœud d’entrée 

Réduction d’entropie 

D : terriers 

0,021 

M : grosses bûches, couches organiques 

0,021 

Ml : marais, ruisseaux 

0,020 

M2 : prés humides 

0,020 

E3 : proxy pour la disponibilité de nourriture 

0,017 


Tab. 1 3.1 Exemple d'étude de sensibilité du modèle des musaraignes pygmées (figure 13.4 
page 301). 


pour mettre en évidence l'ensemble complet des variables environnemen- 
tales optimales qui amène à un habitat pleinement adéquat pour l'espèce. 

La rétrovision peut aussi consister en des études de sensibilité du mo- 
dèle visant à déterminer les variables d'entrée qui influencent le plus le 
résultat : typiquement les variables d'habitat et d'environnement qui in- 
fluencent le plus la qualité de l'habitat et la taille de la population des musa- 
raignes pygmées. Les aspects mathématiques et les procédures d'études de 
sensibilité des réseaux bayésiens ont été passées en revue dans [MHR + 01] 
et [MarOôa], Les études de sensibilité reviennent à étudier comment de 
petites variations incrémentales affectent la valeur de certaines variables 
de réponse. Dans un outil de réseau bayésien, comme Netica, l'utilisateur 
choisit un nœud puis lance une fonction de sensibilité. Le modèle effectue 
alors de petites variations incrémentales. La sensibilité est alors présenté 
dans un tableau où les nœuds d'entrée sont triés par ordre décroissant 
d'impact sur le nœud de sortie sélectionné. 

L'étude de sensibilité du modèle des musaraignes pygmées montre que 
la plupart des variables ont une influence à peu près équivalente (voir le ta- 
bleau 13.1). qui présente la réduction d'entropie pour chaque nœud. La ré- 
duction d'entropie reflète l'influence de chaque nœud d'entrée sur la taille 
de la population (nœud A dans la figure 13.4 page 301). Les valeurs élevées 
correspondent à une influence forte 

Cependant, pour d'autres modèles de faune et de flore, les influences 
des variables d'entrée varient sensiblement. Dans le modèle de la chauve- 
souris, parmi les six variables environnementales clés, la présence de ca- 
vernes ou de mines avec des régimes de température adaptés avait de loin 
la plus grande influence sur les populations de chauve-souris (réduction 
d'entropie = 0,029), tandis que la présence de chicots ou de souches (0,01), 
de bordures de forêts (0,006), de falaises (0,006), de ponts ou d'immeubles 
(0,001) et de piles de pierres (<0,001) avaient une influence moindre. Le res- 
ponsable pouvait interpréter ces résultats pour choisir comment conserver 
ou restaurer les sites pour l'espèce, c'est-à-dire se concentrer en premier 
lieu sur la protection des cavernes ou de mines adaptées, ou alors pour 
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fournir des chicots ou des souches d'arbres. 

Dans cet exemple, le modèle a été calibré et validé à partir de données 
empiriques. Si tel n'avait pas été le cas, ces résultats auraient constitué des 
hypothèses de travail devant être testées sur le terrain. 


13.2.3 Les réseaux bayésiens comme modèles de décision 

Les réseaux bayésiens peuvent également être construits avec : 

• des nœuds de décision qui représentent les choix d'actions de ges- 
tion; 

• des nœuds d'utilité qui expriment les valeurs (coûts et bénéfices) de 
ces actions et les résultats du modèle. 

Dans certains logiciels de réseaux bayésiens, lorsqu'un modèle compor- 
tant des nœuds de décision et d'utilité est compilé, les espérances d'utilité 
de chaque décision sont calculées et représentées dans chaque mode de 
gestion. 

Les réseaux bayésiens peuvent contenir de multiples noeuds de déci- 
sion et d'utilité. Si le modèle inclut une séquence de décision, telle que 
des activités de conservation d'espèces au cours du temps, la résolution du 
modèle de décision peut révéler les suites de décisions optimales qui mi- 
nimisent les coûts, maximisent les bénéfices, ou optimisent les utilités. Les 
réseaux bayésiens pour la faune et la flore et la gestion de ressources na- 
turelles peuvent être particulièrement bénéfiques pour les décideurs lors- 
qu'ils contiennent des nœuds de décision et d'utilité. 

Dans l'exemple du plan pour la Forêt du Nord-Ouest dans le Nord- 
Ouest Pacifique des États-Unis, une série de réseaux bayésiens a été déve- 
loppée pour codifier et représenter un ensemble de directives de gestion 
visant à déterminer les catégories de conservation de douzaines d'espèces 
animales et végétales peu connues [MarOôa]. 

Les modèles pour les décisions de conservation d'espèces et les direc- 
tives qu'ils représentent participent d'une revue annuelle et formelle des 
espèces dans laquelle de nouvelles informations scientifiques étaient éva- 
luées sur des espèces sélectionnées, étroitement associées aux forêts de fin 
de succession et anciennes. Les résultats de cette revue annuelle étaient 
résumés sous forme de suggestions, faites par les panels de revue aux déci- 
deurs des agences régionales, pour maintenir ou changer les catégories de 
conservation ou même retirer certaines espèces de la liste de conservation 
telle que spécifiée selon un certain critère d'évaluation des directives. 

Les réseaux bayésiens pour la décision étaient constitués d'un modèle 
résumé global qui décrivait les catégories de conservation appropriées et 
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ses implications et coûts pour des relevés plus approfondis et la gestion 
du site (figure 13.7 ci-après). Dans ce modèle conçu afin de déterminer les 
catégories de conservations appropriées (A-F ou exclus) d'espèces rares ou 
peu connues des forêts de fin de succession ou anciennes (voir page 302) 
dans la région Nord-Ouest Pacifique des États-Unis, chacune des six caté- 
gories principales qui déterminent le résultat de conservation consistent en 
des modèles de décisions d'évaluation (non montrés). La partie inférieure 
de cette figure montre comment chaque catégorie de conservation est carac- 
térisée par des implications et des coûts (pour mener les relevés d'espèces 
et gérer les sites). Les nombres dans le nœud de gestion (en bas à gauche) 
montrent les espérances de coût calculées à partir du nœud de coût d'utilité 
(en bas à droite). 

En lançant le modèle, les états de chacun des six nœuds d'entrée et le 
nœud final de catégorie de conservation sont spécifiés. Géographie range dé- 
signe le Nord-Ouest Pacifique des États-Unis, Plan provides for persistence 
exprime si les directives dans le plan actuel pour la forêt du Nord-Ouest 
assurent ou non la persistance de l'espèce ; strategie surveys désignent des 
recensements statistiques des espèces; Predisturbance surveys désignent des 
recensements d'espèces dans les endroits destinés à des activités où le sol 
est perturbé (comme l'exploitation forestière). 

Une série de sous-modèles détaillent chaque entrée du modèle résumé 
global, comme le nœud Géographie Range de la figure 13.7 ci-après. Ce sous- 
modèle conteint des critères explicites pour déterminer à quel point une 
espèce peut être considérée ou non comme faisant partie de la zone géo- 
graphique du plan de la forêt du Nord-Ouest (le nord-ouest de la zone Pa- 
cifique des États-Unis). Le critère pour ce sous-modèle est basé strictement 
sur les directives d'évaluation publiées dans le plan de la forêt du Nord- 
Ouest et permet d'inclure une espèce si la région de l'espèce est connue 
comme se produisant à l'intérieur du plan ; et dans le cas contraire, si la 
zone est proche des frontières de la région du plan ou s'il existe au moins 
un habitat approprié pour l'espèce à l'intérieur de la région du plan. 

Chaque sous-modèle était résolu pour chaque espèce afin de détermi- 
ner les probabilités spécifiées dans chaque nœud d'entrée (haut de la fi- 
gure 13.7 ci-après). La combinaison de ces probabilités d'entrée a dicté les 
probabilités de chaque catégorie de conservation pour les espèces. La caté- 
gorie de conservation, à son tour, a dicté le type et le coût des relevés et la 
gestion nécessaire pour l'espèce (bas de la figure 13.7 ci-après). 

Ces modèles de décision ont été utilisés avec succès pour évaluer les 
catégories de conservation de 119 espèces animales et végétales durant les 
revues annuelles d'espèces conduites en 2002 et 2003. Un des avantages de 
l'utilisation de ces modèles de décision est qu'ils identifiaient les catégo- 
ries de conservation possibles même lorsque certaines informations d'en- 
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FlG. 13.7 Principal modèle de décision de conservations d'espèces rares 


trée étaient absentes ou équivoques. Le modèle a aidé à représenter la dis- 
ponibilité et l'incertitude des données scientifiques pour chaque variable 
d'entrée, et l'influence sur les catégories de conservation. Les membres du 
panel ont dû prendre les décisions finales sur les catégories de conservation 
de chaque espèce et ont abordé les incertitudes dans un processus de dis- 
cussion structuré. Les modèles de décision (ou plutôt d'aide à la décision) 
n'ont pas pris les décisions finales à la place des membres du panel ni des 
décideurs, mais ils ont contribué à guider et à instruire les délibérations. 

La plupart des modèles pour la faune et la flore présentés dans le para- 
graphe 13.2.1 page 299 ont été construits comme outils d'aide à la gestion. 
En revanche, les modèles du caribou des forêts étaient destinés expressé- 
ment aux décideurs en charge de la gestion de la forêt de la région centre- 
nord de la Colombie-Britannique. Comme dans les modèles pour la faune 
et la flore de l'intérieur de la Colombie Britannique, les résultats du modèle 
du caribou ont été incorporés à des cartes représentant, avec un code de 
couleurs, le niveau d'adaptation de régions saisonnières du caribou, telle 
que la région hivernale (où les caribous vont durant l'hiver). Les résultats 
du modèle et de la cartographie ont été résumés par les spécialistes du ca- 
ribou et transmis aux décideurs. 

Plus précisément, les résultats montraient la superficie des régions sai- 
sonnières adaptées, au cours du temps, en fonction des activités de gestion 
de la forêt qui affectaient diversement la présence de fourrage de lichen 
et de loups prédateurs dans la région (figure 13.8 ci-après). Sur cette fi- 
gure, les courbes représentent l'aire totale d'habitat dans la zone de haute 



www.frenchpdf.com 


13.2. Exemples de réseaux bayésiens 

altitude du Centre-Nord de la Colombie Britannique (Canada), avant (en 
haut) et après (en bas) colonisation par l'orignal. La ligne sombre en poin- 
tillés est le maximum théorique d'aire d'habitat dans toutes les conditions 
optimales et sans perturbation naturelle telle que les incendies ; la ligne 
grise est la valeur modélisée avec perturbations naturelles, et les parties 
supérieures et inférieures des barres représentent la réaction attendue du 
caribou aux parties de son habitat fortement préférées et moins préférées. 
Les résultats du modèle montrent clairement que l'aire espérée d'habitat 
du caribou change au cours du temps et est affectée négativement par les 
perturbations naturelles et la présence de l'orignal (source : [MMBE06]). 
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FlG. 13.8 Résultats d'une modélisation de la qualité d'habitat du caribou. 

On a également présenté aux décideurs les résultats de la modélisa- 
tion de trois variantes possibles de la politique de gestion du caribou : la 
politique actuelle, une politique basée sur la restauration ou l'émulation 
des perturbations naturelles comme les tempêtes ou les incendies, et une 
politique visant à optimiser la qualité d'habitat du caribou. Les décisions 
finales sur la gestion du troupeau de caribou, de l'habitat du caribou, de 
la récolte forestière et des effets sur les prédateurs n'ont pas encore été 
prises, mais les décideurs disposent des résultats de l'analyse de risques, 
avec une description claire des incertitudes, et pourront prendre les déci- 
sions en connaissance de cause. 

Ces modèles de caribou, ainsi que d'autres réseaux bayésiens, sont éga- 
lement utilisés pour susciter la participation et la collaboration de diffé- 
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rentes parties prenantes publiques [CBW99] sur des sujets d'aménagement 
du territoire. On peut mentionner, par exemple, l'utilisation de systèmes 
consultatifs pour guider la sélection et l'utilisation d'indicateurs pour une 
gestion durable de la forêt [MPOO]. 


13.3 Utilisation des réseaux bayésiens pour étudier la 
faune et la flore et gérer les ressources naturelles 


La connaissance de la faune, de la flore et des ressources naturelles pro- 
vient autant de l'expertise que de données statistiques et de recherches de 
terrain. Pour cette raison, les réseaux bayésiens sont reconnus comme des 
outils efficaces pour combiner connaissances a priori, jugements d'experts et 
données de terrain, et qui peuvent fournir des résultats utiles même lorsque 
certaines données sont manquantes ou incomplètes [RS97], Ce paragraphe 
détaille la manière dont sont utilisés les modèles décrits dans ce chapitre. 


13.3.1 Couplages avec d'autres modèles 

La plupart des modèles présentés dans ce chapitre ont consisté à inté- 
grer les réseaux bayésiens à des systèmes d'informations géographiques 
ou à d'autres procédures d'évaluation. En particulier, les systèmes d'infor- 
mations géographiques fournissent aux écologistes, aux décideurs et aux 
parties prenantes (comme le public) des outils clairs et intuitifs grâce aux- 
quels il est possible d'évaluer puis de décider. On peut citer, comme autres 
exemples, l'utilisation de cartes pour gérer la restauration ou les inonda- 
tions du bassin supérieur du Mississipi dans le centre des Etats-Unis [RS97] 
et pour évaluer des projets de bio-énergie dans la plaine de Farsala en 
Grèce [RKSN01]. 


13.3.2 Gestion adaptative 

Un domaine d'utilisation très prometteur des réseaux bayésiens est ce- 
lui de la gestion adaptative, c'est-à-dire une gestion par la mise en place 
d'essais et apprentissage à partir de l'expérience. Plus formellement, la ges- 
tion adaptative consiste à mettre en place des activités de gestion comme de 
strictes expériences statistiques, avec des traitements et des contrôles, sou- 
vent avec des plans d'expérience de type BACI 7 et à évaluer les effets de la 
gestion du point de vue de certains objectifs clairement formulés. Dans la 

7 Before-After, Control Impact, avant et après traitement sur des sites de contrôle et d'im- 
pact [SOBOl]. 
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gestion des ressources naturelles, la gestion adaptative a été vendue large- 
ment mais en fait rarement appliquée d'une manière si formelle. Dans un 
contexte de prise de décision et de gestion de risques, les réseaux bayésiens 
et les analyses bayésiennes peuvent être des outils utiles pour aider à for- 
muler les objectifs et les hypothèses de gestion et pour évaluer les résultats 
d'expérience de gestion adaptative [WadOO]. 

De plus, dans un contexte de gestion adaptative, les résultats des ex- 
périence BACI et le plan d'étude peuvent être utilisés pour ajuster statisti- 
quement ou actualiser les probabilités a priori ou conditionnelles du réseau 
bayésien et même pour affiner la structure même du modèle, y compris 
l'identification des variables, leurs états et leurs liens. Bien que n'utilisant 
pas d'expériences BACI, l'utilisation réussie de réseaux bayésiens comme 
modèles de décision dans la revue annuelle d'espèces dans le plan de la 
forêt du Nord-Ouest, présenté plus haut, a constitué une forme de gestion 
adaptative. 

Le document [BCH02] développe un cadre de décision pour aider à éva- 
luer les niveaux de satisfaction de gestionnaires de ressources naturelles 
avec le statu quo et les résultats attendus de changements et utilise des ré- 
seaux bayésiens pour estimer spécifiquement les coûts financiers, sociaux 
et écologiques de changer les principes de gestion. Il cite un exemple uti- 
lisant le passage d'agriculture à l'exploitation forestière dans des régions 
reculées du Royaume-Uni, mais son approche pourrait être appliquée à 
d'autres problèmes de gestion adaptative. Pour donner un autre exemple, 
des réseaux bayésiens ont également été utilisés dans des projets de gestion 
adaptative pour aider la gestion par les villages locaux de prairies semi- 
arides du Zimbabwe [ LBP 02], Leur approche a mis en évidence le besoin 
d'une recherche collaborative pour aider au mieux les changements de po- 
litiques d'utilisation du territoire. 

Le document [NMS06] passe en revue les avantages et les rôles des ré- 
seaux bayésiens en gestion adaptative, dans l'Ouest du Canada, et présente 
une étude de cas montrant comment le modèle du caribou évoqué plus 
haut est utilisé dans des cycles de gestion adaptative. Dans cette étude, les 
réseaux bayésiens incluent des nœuds de décision pour l'exploitation fo- 
restière (méthodes de suppression de peuplement d'arbres, préparation du 
site et régénération de la forêt), des nœuds d'utilité pour chaque décision 
et les effets des décisions sur l'abondance de lichens terrestres comme four- 
rage important pour les caribous. 

Une équipe coordonnée de biologistes, de gardes forestiers, et de fonc- 
tionnaires gouvernementaux responsables de la gestion de la ressource uti- 
lisent ces modèles pour explorer les options visant à atteindre simultané- 
ment les objectifs de gestion de la forêt, du risque d'incendie, et des cari- 
bous. Les résultats sont des tests de terrain conçus statistiquement pour ap- 
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porter les informations cruciales sur les modes de gestion aptes à atteindre 
les buts recherchés. 


13.3.3 Prise de décision en univers incertain et considération des 
types d'erreurs 

La gestion de ressources naturelles est souvent caractérisée par une 
grande incertitude, concernant, par exemple, la manière dont une espèce 
particulière va réagir à des changements d'environnement ou d'habitat 
consécutifs à des activités de gestion du territoire. Les responsables sont 
souvent confrontés au défi de prendre des décisions d'actions en l'absence 
d'informations complètes. La manière dont un décideur prend en compte 
l'incertitude dépend de son attitude face au risque. S'il est adverse au risque, 
il va adopter un principe de précaution et supposer que les incertitudes 
vont potentiellement affecter négativement les activités de gestion. En re- 
vanche, s'il est neutre face au risque, ou attiré par le risque, il considérera 
l'incertitude comme une absence de preuve de ces effets néfastes et pour- 
suivra ses activités jusqu'à ce que soit apportée la preuve que des change- 
ments de politique doivent être mis en place. 

Il n'y a pas d'attitude face au risque qui satisfasse toutes les situations 
de politique publique dans le domaine de la gestion de ressources natu- 
relles. Les réseaux bayésiens sont utiles pour aider les responsables à éva- 
luer explicitement les types et les conséquences des incertitudes. Les incer- 
titudes concernent les réactions du système aux activités, ou à des combi- 
naisons ou des séquences d'activités. Mais il existe également une incerti- 
tude liée à notre manque de compréhension du fonctionnement même du 
système. 

En particulier, deux types d'erreur, les faux positifs (prévoir qu'une es- 
pèce rare est présente alors qu'elle est en fait absente) et les faux néga- 
tifs (prévoir qu'elle est présente quand elle est absente), peuvent avoir des 
conséquences très différentes en ce qui concerne les coûts d'opportunité 
inutilisés quand les sites sont protégés, ou les fonds débloqués pour un 
inventaire d'espèce rares et une protection du site alors que l'espèce n'est 
même pas présente. Les modèles de prévision discutés plus haut ont expli- 
citement fourni ces tests sur la précision du modèle et les types d'erreur. 


13.3.4 Mise à jour et affinage des modèles 

Un aspect utile des réseaux bayésiens est leur aptitude à mettre à jour 
les distributions de probabilité a priori et conditionnelles à partir de fichiers 
d'exemples. Un exemple [Mar06a] d'une telle mise à jour est le modèle de 
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l'espèce rare de champignon présenté au paragraphe 13.2.1 page 299, utili- 
sant l'algorithme EM (maximisation de l'espérance, voir page 121) implé- 
menté dans Netica. Quand on incorpore un fichier de cas produit à partir de 
relevés de terrain, l'algorithme EM modifie les distributions de probabilité 
du modèle pour mieux les ajuster aux circonstances observées. L'utilisateur 
peut choisir des poids pour les fichiers de cas selon leur représentativité, et 
les fichiers de cas peuvent comporter des données manquantes pour cer- 
taines variables d'entrée. Cette fonctionnalité s'est révélée très utile pour 
affiner le modèle et améliorer la performance des précisions de présence ou 
d'absence de l'espèce. Cela a aussi montré que ce processus de mise à jour 
dynamique s'adapte bien à un cadre d'apprentissage adaptatif, dans lequel 
une nouvelle connaissance ou une nouvelle information peuvent être utili- 
sées pour améliorer la précision du modèle et justifier des réévaluations de 
la politique de gestion. 


13.4 Conclusion et perspectives 


Ce chapitre a passé en revue l'utilisation de réseaux bayésiens pour 
la prévision, la rétrovision et l'aide à la décision dans le domaine de la 
gestion de ressources naturelles. Dans ce domaine, les réseaux bayésiens 
se révèlent des outils souples et utiles pour combiner diverses formes de 
données, pour gérer les incertitudes ou l'absence de certaines informations 
ainsi que pour illustrer comment les systèmes écologiques fonctionnent et 
les conséquences de décisions de gestion. 

Les réseaux bayésiens, bien sûr, ne sont qu'une forme de modèle et pour 
des évaluations ou des besoins de décision critiques , les écologistes comme 
les responsables ont tout intérêt à comparer les résultats avec ceux d'autres 
modèles. On peut mentionner les analyses statistiques traditionnelles, les 
arbres de décision et d'autres méthodes formelles pour l'évaluation du 
risque environnemental et écologique [O'L05, SS05], telles que la théorie 
de l'utilité multiattribut, la hiérarchie des buts, le processus hiérarchique 
analytique (AHP) et la prise de décision multi-critères. Dans tous les cas, il 
est fortement recommandé, pour commencer tout exercice de modélisation, 
que les experts et les responsables utilisent de simples diagrammes d'in- 
fluence pour décrire comment les systèmes doivent fonctionner et quelles 
parties du système peuvent être affectées par les décisions de gestion. 

Les décisions sont toujours prises sur la base de la connaissance actuelle 
qui, dans ces domaines, est souvent incomplète et en évolution perpétuelle. 
Egalement en évolution permanente sont les facteurs qui influencent la dé- 
cision, les critères de décision et les attitudes face au risque des respon- 
sables (qui restent souvent tacites et varient selon les utilités espérées et les 
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probabilités associées aux résultats des décisions de gestion). 

Les types de résultats et leur valeurs (utilités ou matrice de gains en 
termes de théorie des jeux) changent également au cours du temps. Les 
réseaux bayésiens se révèlent utiles dans un contexte aussi changeant, no- 
tamment dans un cadre de gestion adaptative. Ils aident à identifier des 
hypothèses de gestion testables, des variables clés, des essais de gestion et 
des expériences statistiques. Ils permettent d'incorporer de nouvelles infor- 
mations pour réévaluer les effets d'une politique de gestion. 

Ainsi, les réseaux bayésiens et les méthodes bayésiennes associées, telles 
que les approches bayésiennes empiriques, peuvent constituer des outils 
pour des programmes de surveillance, par exemple pour évaluer la viabi- 
lité d'une population dans des plans de conservation de l'habitat [FolOO]. 
Quand des données sont recueillies, des cas peuvent être incorporés pour 
améliorer les performances du modèle en utilisant différentes procédures 
d'apprentissage, implémentées dans les logiciels de réseaux bayésiens. Les 
responsables peuvent utiliser les modèles actualisés pour déterminer si leur 
plan d'action doit changer ou être maintenu. Les réseaux bayésiens sont 
particulièrement utiles dans un contexte de gestion adaptative, pour expli- 
citer les critères de décision, les valeurs seuils qui justifient des remises en 
causes des politiques de gestion, ainsi que les utilités espérées et les incer- 
titudes associées à chaque décision. 

Comme avec n'importe quel outil d'aide à la décision, les responsables 
doivent comprendre et décrire clairement : les hypothèses du modèle ; les 
résultats espérés ; les valeurs de chaque résultat potentiel (c'est-à-dire les 
utilités ou les revenus associés aux résultats) ; les directives de gestion, 
les priorités et les enjeux (facteurs pris en compte dans la décision) ; leurs 
propres critères de décision ; leur attitude face au risque (tolérance du risque, 
importance relative perçue du risque, incertitude de chaque facteur) et éga- 
lement d'autres facteurs entrant en ligne de compte dans la décision et qui 
ne sont pas représentés dans le modèle tels que le risque politique pour 
certaines personnalités, le déroulement de carrière futur, l'influence sur 
d'autres décisions et le risque de litige. Les modélisateurs peuvent appor- 
ter une aide concernant la plupart de ces aspects de la décision, mais c'est 
aux décideurs que revient la responsabilité d'utiliser à bon escient de tels 
outils. 
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Étude de cas n°6 : diagnostic 
médical 


Ce chapitre a été rédigé par Carmen Lacave 1 , de l'université de Castille-La Manche, et Fran- 
cisco J. Diez 2 , de l'université espagnole d'enseignement à distance (UNED). 


Le développement de systèmes experts d'aide au diagnostic médical 
remonte aux années soixante, avec la construction de modèles dans divers 
domaines, telles que les cardiopathies et les douleurs abdominales aigües. 
Ces systèmes appliquaient la méthode naïve de Bayes, qui consiste à choisir 
une variable D représentant les n diagnostics possibles {dj, et m variables 
Hj (binaires en général) correspondant aux observations possibles, à sa- 
voir les symptômes et signes de maladie. Deux hypothèses sont nécessaires 
pour que le problème puisse être résolu : la première est que les diagnostics 
soient exclusifs et exhaustifs ; la seconde, que les observations soient condi- 
tionnellement indépendantes de chaque diagnostic. La méthode donnait des 
résultats satisfaisants pour des problèmes simples, mais présentait néan- 
moins de sérieuses limitations : en médecine, les diagnostics ne sont pas 
toujours exclusifs (un patient peut être affecté par plusieurs maladies ou 
troubles), et les observations sont souvent corrélées, même lorsqu'on sait 
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qu'une maladie est présente (ce qui contredit l'hypothèse d'indépendance 
conditionnelle) . 

Ainsi, lorsque les développeurs de MYCIN, système expert élaboré dans 
les années soixante-dix à l'Université de Stanford, eurent besoin d'une mé- 
thode de raisonnement en univers incertain, ils rejetèrent la méthode naïve 
de Bayes. Ils développèrent une approche dans laquelle était attribué un 
facteur de certitude FC(H, E) à chaque règle du type « Si H, alors E ». Même 
si ces facteurs de certitude étaient définis formellement à partir des proba- 
bilités P(H) et P(E | H), ils étaient en fait directement estimés à partir d'avis 
d'experts et combinés au moyen d'équations ad hoc, qui ne respectaient pas 
les règles du calcul probabiliste. Malgré le succès de MYCIN, dont la pro- 
portion de diagnostics corrects était proche de celles des meilleurs experts 
humains, il fut prouvé par la suite que le modèle comportait des incohé- 
rences importantes, ce qui mettait en évidence la nécessité de bases plus 
solides. 

Dans la décennie suivante, la majorité des systèmes experts étaient ba- 
sés sur la logique floue, ce qui est assez naturel dans le domaine médical où 
beaucoup de concepts sont définis de manière floue : pression artérielle éle- 
vée, douleur aigüe, fatigue légère, symptôme évident, grosse tumeur, mala- 
die grave, forte mortalité, etc. C'est aussi au cours des années quatre-vingts 
que sont apparus les réseaux bayésiens et les diagrammes d'influence : 
leur adaptation au diagnostic médical a été rapidement mise en évidence 
(chapitre 8 page 213). En fait, les premières applications opérationnelles 
des réseaux bayésiens et des diagrammes d'influence, au début des an- 
nées quatre-vingt-dix, concernaient des problèmes médicaux. Depuis, de 
nombreux arguments théoriques et pratiques ont été identifiés en faveur 
de l'utilisation de modèles probabilistes graphiques en intelligence artifi- 
cielle. Ainsi, en 1993, les créateurs de MYCIN ont déclaré [DBS93] : « les 
réseaux bayésiens offrent à présent une méthode viable pour construire 
des systèmes de diagnostic de grande taille, sans utilisation d'hypothèses 
(grossières et intrinsèquement imparfaites) d'indépendance conditionnelle 
et de modularité de la connaissance ». 


14.1 Sources d'incertitudes en médecine 


L'incertitude et l'imprécision sont présentes dans presque tous les mo- 
dèles d'intelligence artificielle, pour trois raisons fondamentales : les in- 
suffisances de l'information, le non-déterminisme du réel et les lacunes des 
modèles. Il existe plusieurs méthodes de raisonnement en univers incertain 
qui permettent de traiter ces trois formes d'incertitudes. 

Nous décrivons ci-après, de manière plus détaillée, les différentes sources 
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d'incertitudes dans le domaine médical. 

• Information incomplète 

Dans de nombreux cas, l'historique clinique du patient n'est pas dis- 
ponible, et ce dernier ne peut se rappeler de tous les symptômes qu'il 
a présentés et de la manière dont la maladie a évolué. Les médecins 
doivent établir des diagnostics sur la seule base de l'information dis- 
ponible, même si celle-ci est très limitée. 

• Information inexacte 

L'information donnée par le patient au médecin peut être mal expri- 
mée ; dans certains cas, le patient peut même mentir au médecin. Il 
est également possible que des diagnostics antérieurs, contenus dans 
l'historique clinique du patient, soient erronés. Les tests de labora- 
toires produisent couramment des faux positifs et des faux négatifs. 
En conséquence, les médecins doivent toujours, dans une certaine 
mesure, mettre en doute l'information dont ils disposent. 

• Information imprécise 

En médecine, beaucoup de données sont difficilement quantifiables. 
C'est souvent le cas pour les symptômes, tels que la douleur ou la 
fatigue. Même dans une technique aussi sophistiquée que l'écho-car- 
diographie par exemple, beaucoup de caractéristiques du patient doi- 
vent être évaluées subjectivement, telle que la descente valvulaire 
ou l'akinésie ventriculaire (mouvement insuffisant de la paroi car- 
diaque). 

• Non-déterminisme du réel 

Les cliniciens savent que les patients sont tous différents et qu'il y a 
peu de règles universelles : les patients ne sont pas comparables à des 
machines mécaniques ou électriques, dont le comportement est régi 
par des lois déterministes. Très souvent, les mêmes causes produisent 
chez des patients différents des effets différents, sans explication ap- 
parente. C'est pourquoi les diagnostics médicaux doivent toujours 
tenir compte de probabilités ou d'exceptions. 

• Modèle incomplet 

Il existe beaucoup de phénomènes médicaux dont la cause principale 
est inconnue (on parle de maladies idiopathiques), et il est courant que 
les experts d'un domaine soient en désaccord : en fait, même si toute 
l'information était disponible, il serait en pratique impossible de la 
représenter dans un système expert. 

• Modèle inexact 

Les modèles visant à quantifier l'incertitude, quelle que soit la mé- 
thode, nécessitent un nombre élevé de paramètres. Par exemple, dans 
le cas de réseaux bayésiens, il faut évaluer toutes les probabilités a 
priori et conditionnelles. Toute cette information est rarement dispo- 
nible : elle doit donc être estimée subjectivement. Il est souhaitable. 
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par la suite, que le modèle de raisonnement puisse tenir compte de 
ses propres inexactitudes. 


Ceci explique pourquoi toutes les méthodes de raisonnement en uni- 
vers incertain ont été appliquées à la médecine : dans plusieurs cas, le 
besoin de traiter un problème médical a conduit à élaborer une nouvelle 
méthode, qui plus tard a été étendue à d'autres domaines. La médecine 
constitue un excellent banc d'essai pour évaluer les qualités et les limites 
d'une nouvelle méthode de raisonnement en univers incertain, parce que 
ce domaine présente pratiquement toutes les formes d'incertitudes que l'on 
puisse imaginer. 

Dans le cas des modèles graphiques probabilistes, cela se vérifie claire- 
ment : les premiers systèmes experts basés sur des réseaux bayésiens ont 
été développés pour des problèmes médicaux et, de notre point de vue, la 
médecine est le domaine dans lequel le développement des réseaux bayé- 
siens est le plus avancé. Dans ce chapitre, nous analysons le problème gé- 
néral de la construction de réseaux bayésiens médicaux et, comme étude de 
cas, nous décrivons le développement de PROSTANET, un réseau bayésien 
destiné au diagnostic du cancer de la prostate. 


14.2 Construction de réseaux bayésiens médicaux 


Comme dans d'autres domaines, on distingue trois méthodes de cons- 
truction de réseaux bayésiens : 

• Automatique : par application d'un algorithme d'apprentissage à une 
base de données. Les algorithmes d'apprentissage peuvent identifier 
à la fois la structure (le graphe) du modèle et les paramètres (les pro- 
babilités conditionnelles). 

• Manuelle : avec l'aide d'experts humains, les médecins en l'occur- 
rence : les spécialistes en ingénierie de la connaissance interrogent les 
experts et ajoutent les nœuds, les liens et les probabilités condition- 
nelles au réseau bayésien sur la base de la connaissance recueillie. 
Dans ce cas, le graphe doit être causal, pour des raisons que nous 
verrons par la suite. 

• Hybride : dans cette approche, la structure du réseau est décrite avec 
l'aide des experts humains et les probabilités sont obtenues à partir 
d'une base de données. 
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14.2.1 Construction de réseaux bayésiens à partir de bases de don- 
nées médicales 

La manière la plus rapide de construire un réseau bayésien médical 
consiste à traiter une base de données contenant un nombre suffisant de cas 
(de patients, typiquement) puis d'appliquer un des nombreux algorithmes 
d'apprentissage disponibles dans la littérature (voir le chapitre 6 page 117), 
dont certains sont implémentés dans des logiciels commerciaux ou libres 
(voir annexe C page 359). Dans le domaine médical, les principaux pro- 
blèmes posés par cette méthode sont les suivants. 

Tout d'abord, les bases de données médicales ne contiennent généra- 
lement que quelques observations accompagnées du diagnostic final, tan- 
dis que la construction d'un réseau bayésien nécessite l'identification d'un 
grand nombre de variables intermédiaires, afin de satisfaire les hypothèses 
d'indépendances conditionnelles. Certes, il existe des algorithmes capables 
de trouver les variables dites cachées, mais il subsiste deux problèmes. 
D'une part, la quantité de données requise pour obtenir des résultats fiables 
est très grande, même si la proportion de variables cachées est faible. D'autre 
part, quand les variables ainsi identifiées ne correspondent à aucun concept 
médical, la validité du modèle peut être remise en question. 

En deuxième lieu, beaucoup d'algorithmes d'apprentissage nécessitent 
que la base de données ne comporte aucune donnée absente. Cependant, 
dans la pratique, toutes les bases de données médicales sont incomplètes, 
et la proportion de données manquantes est souvent importante. Les mé- 
thodes dites d'imputation supposent généralement que les valeurs absentes 
sont réparties aléatoirement, ce qui est une hypothèse peu réaliste : il y a 
toujours une raison pour laquelle une valeur est absente. Ainsi, les mé- 
thodes d'imputation présentent souvent de fausses corrélations dans la 
base de données, ce qui conduit à des relations fausses dans le réseau bayé- 
sien. 

Troisièmement, les réseaux bayésiens construits automatiquement ne 
sont pas nécessairement causaux. Par exemple, ils peuvent faire apparaître 
un lien d'un symptôme vers la maladie qui le produit, ce qui est contre- 
intuitif pour les experts humains. En plus, un réseau bayésien causal peut 
être transformé en un diagramme d'influence en ajoutant des nœuds de 
décision et d'utilité, mais cela n'est pas possible pour des réseaux non- 
causaux. Il existe certes des algorithmes essayant d'établir des modèles 
causaux à partir de bases de données d'observation, mais ils nécessitent 
un grand nombre de données et une base de données non biaisée. Or, en 
médecine, toute base de donnée est biaisée car correspondant toujours à 
une sous-population de patients, dans un certain contexte médical. 

En résumé, il est possible de construire automatiquement des réseaux 
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bayésiens à partir de bases de données, mais le réseau est alors surtout 
utile comme outil d'analyse des corrélations et des indépendances condi- 
tionnelles dans la base de données. Les conclusions, qualitatives ou quan- 
titatives, obtenues à partir d'un tel modèle ne peuvent pas être étendues 
de manière sûre à la population générale et surtout, il n'est pas possible de 
donner une interprétation causale au graphe du réseau. En d'autres termes, 
de tels réseaux bayésiens sont semblables à des méthodes de type boîte 
noire, telles que la régression logistique ou les réseaux de neurones, dans 
lesquels il est difficile - voire impossible - d'interpréter la structure et les 
paramètres du modèle. 

14.2.2 Construction à l'aide d'experts humains 

Bien qu'il n'y ait aucune référence méthodologique pour la construction 
manuelle d'un modèle graphique probabiliste, le processus peut être dé- 
composé en deux phases principales. La première consiste à obtenir l'infor- 
mation qualitative, ce qui implique l'identification des maladies principales, 
anomalies et observations possibles, ainsi que les relations entre ces va- 
riables, afin de construire un graphe causal. La deuxième phase consiste à 
recueillir l'information quantitative, c'est-à-dire les probabilités numériques. 

Nous décrivons chaque phase séparément, bien que dans la pratique 
les deux tâches soient la plupart du temps indissociables. Par exemple, 
pendant le processus d'obtention des probabilités, le graphe établi dans 
la phase précédente peut subir des changements, comme ce fut le cas avec 
le modèle PROSTANET (qui sera présenté au paragraphe 14.3 page 326), 
soit parce que de nouvelles relations, oubliées dans la première phase, sont 
identifiées, soit parce que le nombre élevé de parents d'un certain nœud 
rend impossible la construction de la table de probabilités conditionnelles. 
Une solution possible pour diminuer la taille des tables de probabilités 
consiste à introduire des variables auxiliaires ; dans ce qui suit, nous pro- 
poserons un exemple de divorce de variables parentes. Ce type de procé- 
dés amène à modifier, en phase de recueil de probabilités, la structure du 
graphe. 

► Construction du graphe causal 

Tout réseau bayésien nécessite un nombre élevé d'hypothèses d'indé- 
pendances conditionnelles qui, en principe, devraient être justifiées par une 
analyse statistique. Cependant, dans la plupart des cas, une telle vérifica- 
tion est impossible en raison de l'absence de données empiriques. La so- 
lution palliative usuelle consiste à interroger des experts humains au sujet 
des mécanismes causaux. Les propriétés d'indépendance probabiliste dans 
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un graphe causal se justifient de la manière suivante : 



FIG. 14.1 


Indépendances conditionnelles pour un nœud X ayant deux enfants et deux 
parents 


Indépendance a priori. Lorsque deux variables Ui et U 2 sont telles que (1) 
il n'y a pas de corrélation connue entre elles, (2) il n'y a pas de mé- 
canisme causal selon lequel Ui puisse causer U 2 , ni l'inverse et (3) il 
n'y a pas de cause commune aux deux variables, alors on peut sup- 
poser qu'elles sont a priori indépendantes, c'est-à-dire, P(ui,u. 2 ) = 
P(ui) ■ P ( U 2 ) • Par exemple, le sexe d'un individu et son pays d'ori- 
gine peuvent être supposés indépendants a priori. De façon analogue, 
quand la corrélation entre deux variables (par exemple, le sexe et 
l'âge) est faible, nous pouvons la négliger et traiter ces variables com- 
me si elles étaient indépendantes, afin de simplifier la structure du 
modèle et, par conséquent, le temps de calcul nécessaire pour propa- 
ger des observations. 

Indépendance conditionnelle entre plusieurs effets d'une cause. Si (1) X 

est une cause commune de Yi et Y 2 , (2) le mécanisme causal par le- 
quel X produit Yi n'interagit pas avec le mécanisme X — > Y 2 , (3) il 
n'y a pas de relation causale connue Yi — > Y 2 ni Y 2 — > Yi, et (4) il n'y 
a pas d'autre cause commune de Yt et Y 2 , alors, nous pouvons sup- 
poser que les deux variables sont indépendantes conditionnellement 
à X. Par exemple, entre un symptôme Yi et un test de laboratoire Y 2 
indicatifs d'une même maladie X, il est presque toujours possible de 
supposer qu'il y a indépendance conditionnelle. 

Indépendance conditionnelle entre un effet et ses grand-parents. Si 

(1) les causes de X sont Ui , . . . , U n , (2) le mécanisme X — > Y est indé- 
pendant de la manière dont X s'est produit, et (3) il n'y a pas d'autre 
mécanisme causal connu Ut Y, alors on peut supposer que les Ut 
et Y sont conditionnellement indépendants sachant X. Par exemple. 
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le pays d'origine (Ui) et le groupe sanguin (U 2 ) sont deux facteurs 
de risque de paludisme (X) ; en pratique, nous pouvons supposer que 
la probabilité que le test du frottis épais 3 (Y) soit positif est indépen- 
dant du pays d'origine et du groupe sanguin, une fois qu'on sait avec 
certitude si le patient est atteint de paludisme ou pas. 

Malheureusement, il y a beaucoup de cas dans lesquels les mécanismes 
causaux qui produisent une certaine anomalie ne sont pas connus. Par 
exemple, un ouvrage de cardiologie indique que les principaux facteurs de 
risque de crise cardiaque aiguë (CCA) sont : l'obésité, l'effort, une consom- 
mation élevée de sodium, une tension artérielle élevée, le diabète, les an- 
técédents familiaux de CCA, l'âge, le sexe masculin, la couleur de peau 
(blanche, en l'occurrence) et le tabagisme. Évidemment, ces dix facteurs 
ne sont pas tous causaux ni stochastiquement indépendants. Cependant, 
il est impossible de savoir dans quelle mesure chacun affecte les autres, 
parce qu'à notre connaissance, aucune étude épidémiologique n'a analysé 
les dépendances et les indépendances conditionnelles parmi ces facteurs de 
risque de CCA. 

► Application de modèles canoniques 

Entre la définition de la structure de réseau et l'acquisition d'informa- 
tions quantitatives, il est important d'identifier quelles parties du réseau 
peuvent être modélisées par une porte OU ou tout autre modèle dit cano- 
nique [DD06]. Ces modèles sont extrêmement utiles pour l'acquisition de 
connaissance, non seulement parce qu'ils ont besoin de peu de paramètres, 
mais également parce que chaque paramètre est beaucoup plus facile à es- 
timer. Par exemple, construire une table de probabilités pour un nœud bi- 
naire X ayant cinq parents binaires implique 32 questions du type « quelle 
est la probabilité de +x lorsque +ui, ^U2, +U3, +U4 et -ax.5? », à laquelle 
il est difficile (voire impossible) de répondre, car il est très peu probable 
qu'un expert humain ait rencontré un patient ayant souffert de Ui, U3 et U4 
en même temps. De la même manière, lorsqu'on obtient les probabilités à 
partir d'une base de données, il est très peu probable qu'un patient ait souf- 
fert des trois maladies simultanément. En revanche, une porte OU ne né- 
cessiterait que cinq paramètres, correspondant aux cinq questions « quelle 
est la probabilité que U L produise X ? », paramètres qui sont plus faciles à 
estimer. 

Du point de vue informatique, les modèles canoniques sont avantageux 
parce qu'ils requièrent beaucoup moins d'espace mémoire et parce qu'il 
existe des algorithmes qui, au lieu de développer les tables de probabili- 
té test le plus connu pour diagnostiquer le paludisme. 



www.frenchpdf.com 


Chapitre 14 - Étude de cas n°6 : diagnostic médical 


tés associées, propagent les observations directement avec le modèle ca- 
nonique, permettant une économie importante de mémoire et de temps de 
calcul. Prenons l'exemple d'un réseau bayésien médical, le CPCS ( Computer - 
based Patient Case Simulation, [PPMH94]) : ce modèle ne pouvait pas être 
résolu exactement, parce que les algorithmes manquaient de mémoire ; en 
outre, même avec un ordinateur qui aurait eu assez de mémoire, le temps 
de calcul requis serait beaucoup trop grand. Cependant, les algorithmes 
récents qui exploitent les propriétés des modèles canoniques peuvent ré- 
soudre ce réseau en quelques millisecondes. 

Enfin, les modèles canoniques ont également l'avantage de permettre 
d'expliquer le raisonnement [Pea88b, LD02], Par exemple, si l'interaction 
d'un symptôme S avec ses parents est modélisée par une porte OU bruitée, 
alors, chez un patient, la confirmation d'une maladie causant S minimise 
la suspicion d'autres causes de S. Ce phénomène est appelé, en anglais, ex- 
plaining aioaxj. Inversement, l'élimination de toutes les causes de S à l'excep- 
tion d'une seule maladie permet de diagnostiquer celle-ci. De cette façon, 
la porte OU bruitée reproduit par propagation de probabilités le diagnostic 
différentiel que pratiquent chaque jour les médecins. 

En raison de ces avantages, il est souhaitable d'utiliser les modèles ca- 
noniques partout où c'est possible. En particulier, les conditions pour l'ap- 
plicabilité d'une porte OU sont les suivants : 

® Le nœud et ses parents doivent être des variables binaires du type 
absent/ présent. Ceci interdit l'application de la porte OU pour des 
variables telles que le pays d'origine ou la couleur de peau. 

© Chaque parent représente une cause qui peut produire l'effet quand 
les autres causes sont absentes. 

© Il n'y a aucune synergie parmi les causes, en d'autres termes, le mé- 
canisme par lequel la cause 1® produit X est indépendant des méca- 
nismes des autres causes de X. 

Les conditions d'applicabilité des autres modèles canoniques sont ana- 
logues. 

► Acquisition d'informations quantitatives 

L'obtention des données numériques est encore plus difficile que l'ac- 
quisition de connaissances qualitatives. En effet, la littérature médicale ne 
contient qu'une infime partie de l'information requise : les descriptions 
sont presque toujours qualitatives. 

Par exemple, un autre livre de cardiologie indique : « la tumeur pri- 
maire la plus commune chez l'adulte est le myxome et 75 % de ces tumeurs 
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sont localisées dans l'oreillette gauche, habituellement chez la femme ». 
Dans cette phrase, deux termes flous apparaissent, adulte et habituellement. 
Ceci pose plusieurs questions : quel est l'âge à partir duquel une personne 
est considérée comme adulte ? Est-ce que la catégorie adulte inclut les per- 
sonnes âgées ? Quelle est la fréquence associée à habituellement ? Il existe 
des études psychologiques qui aident à traduire les expressions qualita- 
tives en probabilités numériques, mais les évaluations numériques sont si 
différentes que ces études se révèlent quasiment inutilisables en pratique. 

La seule probabilité numérique dans cet extrait (75 %), dont nous ne 
savons pas s'il s'agit d'un résultat empirique ou d'une évaluation subjec- 
tive, n'est pas très utile non plus, parce qu'elle n'indique pas la probabilité 
d'avoir un myxome dans l'oreillette gauche mais seulement la probabilité 
d'une telle localisation sachant qu'il y a un myxome. Évidemment, cette 
information ne peut pas être introduite dans le réseau directement. 

Cet exemple simple montre pourquoi, dans beaucoup de cas, il est né- 
cessaire d'obtenir les probabilités à partir d'évaluations subjectives d'ex- 
perts humains, même si cette tâche est fastidieuse, complexe et parfois 
source d'erreurs. 


14.3 Un exemple de modèle : Prostanet 

Le cancer de la prostate est une maladie très commune chez les hommes 
âgés de plus de cinquante ans. Il n'est parfois pas facile de le diagnosti- 
quer, parce qu'il se caractérise par des symptômes très semblables à ceux 
produits par d'autres maladies bénignes 4 . 

Nous avons construit PROSTANET, un réseau bayésien causal, dans le 
but d'aider les médecins à établir un diagnostic différentiel entre certaines 
maladies liées à la prostate. En raison du manque de bases de données pour 
établir le réseau automatiquement, le modèle a été développée manuelle- 
ment avec l'aide d'un urologue, le Dr Diego A. Rodriguez Leal, de l'hôpital 
général de Ciudad Real (Espagne) et avec le logiciel de réseaux bayésiens 
Elvira [Elv02] (voir page 382). 

La raison principale du choix de ce logiciel est qu'il offrait des fonc- 
tionnalités d'explication 5 supérieures à celles des programmes disponibles 
au moment où PROSTANET a été développé. En ce qui concerne la métho- 
dologie, outre une étude bibliographique, nous avons principalement basé 
notre travail sur une série d'entrevues avec l'expert humain pour détermi- 
ner le graphe causal et quasiment toutes les probabilités (seules quelques- 

4 Par exemple, l'hypertrophie bénigne de la prostate ou la prostatite chronique. 

5 Les fonctionnalités d'explication sont décrites en détail dans [Lac03]. 
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unes ont été trouvées dans la littérature). En outre, afin d'éviter la propaga- 
tion d'erreurs jusqu'à la fin du processus, nous avons testé chaque version 
du modèle. Au total, sept versions différentes du réseau bayésien, décrites 
dans le tableau 14.1 page 334, ont été construites. 


14.3.1 Structure du graphe 

Un des principaux problèmes que nous avons rencontrés quand nous 
avons commencé à construire PROSTANET est qu'il n'existait aucune mé- 
thodologie pour développer les réseaux bayésiens médicaux (comme nous 
l'avons expliqué au paragraphe 14.2.2 page 322), mis à part le bon sens et 
quelques expériences d'applications médicales [Oni02, RenOlb], 

Puisque l'objectif du modèle était le diagnostic du cancer de la pros- 
tate, qui devait constituer la variable principale du graphe, nous avons dé- 
cidé d'employer les mêmes idées que pour la construction de réseaux de 
similarité [Hec91], qui furent développés comme outils de construction de 
structures adaptées à une seule anomalie ou maladie. 

Nous nous sommes donc initialement concentrés sur la variable repré- 
sentant le cancer de la prostate pour identifier les principaux signes, symp- 
tômes et facteurs de risque associés. Ce processus a conduit à la première 
version de PROSTANET, qui comportait seulement 30 liens et 26 nœuds 
comme le montre la figure 14.2 ci-après : la variable principale (cancer de la 
prostate), les principaux facteurs de risque et les symptômes, signes, tests 
et les autres maladies pouvant être provoquées par des complications. Ce 
modèle a été évalué en utilisant les explications verbales d'Elvira, qui sont 
formulées comme des combinaisons de mots et de nombres. Ceci a amené 
l'urologue à conclure que le modèle était une représentation trop simpliste 
du domaine. 

Il a alors été décidé d'introduire les principales maladies caractérisées 
par des signes et symptômes proches de ceux du cancer de la prostate. 
Après plusieurs retouches et évaluations, nous avons obtenu les deux ver- 
sions suivantes de PROSTANET. La deuxième version avait 34 nœuds (dont 
8 représentaient des maladies) et 46 liens, et la troisième version compor- 
tait 43 nœuds et 75 liens. La structure de la troisième version a été considé- 
rée comme satisfaisante et définitive par l'expert, même si durant la phase 
d'acquisition de probabilités, elle a subi quelques modifications mineures, 
comme nous le verrons au paragraphe suivant. La quatrième version a été 
obtenue en définissant les valeurs et les noms des états de chaque variable, 
sans modifier la structure du graphe ; la plupart des variables étaient bi- 
naires. 
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/Hormonal factors' 


’rostato incr«as«~ 


Feeding 


Soxual Activité 


Obese 


Antecestor with 


‘rostate Cancer 


jToss of strength and calibre. 


Bladdor infaction 


Polaquiuria 


Hffkult to urinata 


Radiological data 


Anaamia 


/Rectal examination j 


Gleason 


s of welght > 
CGanglion tuprà> 


factor s 


TtÊÊÊÊM 


Orner memes 


" Hepatic afection .- — 

Sutm » _ — ~ cl©» 

1 ( Pain ) ^ 

l ' Hematuna ) 


FlG. 14.2 Première version de PROSTANET. 


14.3.2 Recueil de probabilités 

Ce processus est la phase la plus difficile et la plus longue en raison des 
erreurs et des biais que les humains tendent à introduire lorsqu'ils estiment 
des probabilités subjectivement [KST82], Dans notre cas, l'expert devait dé- 
finir 259 valeurs, comme le montre le tableau 14.1 page 334. Les principaux 
problèmes concernaient les variables ayant un grand nombre de parents. 

Par exemple, la figure 14.3 ci-après montre une sous-partie de PROS- 
TANET autour du nœud « Prostate Cancer ». Pour obtenir chacune des 2 6 
probabilités associées à ce nœud, nous aurions dû poser à l'urologue une 
question du type : quelle est la probabilité d'avoir un cancer de la prostate 
sachant que le patient a une congestion de la prostate, une displasie, des 
facteurs hormonaux, une activité sexuelle normale, qu'il n'est pas obèse, 
et n'a pas d'antécédents familiaux de cancer de la prostate ? Il était claire- 
ment impossible à l'expert d'estimer cette probabilité. Cependant, l'iden- 
tification de modèles canoniques que nous avons présentés page 324, qui 
représentent les relations entre un nœud et ses parents, nous a permis de 
construire de grandes tables de probabilités à partir d'un petit nombre de 
données. Il y eut ainsi une réduction de 35 % du nombre de probabilités à 
estimer par l'expert (169 au lieu de 259), même si'il a fallu pour cela ajouter 
des nœuds et des liens. 
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FlG. 14.3 La variable « Prostate Cancer » et ses six parents, dans la quatrième version 
de Prostanet. 


D'autres fonctionnalités utiles du logiciel sont, d'une part, la coloration 
des liens selon le signe de l'influence qu'ils représentent [Wel90] (les in- 
fluences positives sont représentées en rouge, les négatives en bleu, les 
nulles en noir, et les indéfinies en violet) et d'autre part, l'épaisseur des 
liens proportionnelle à l'influence de la variable amont sur la variable aval 
(voir par exemple [Lac03]). Par exemple, dans la copie d'écran de la fi- 
gure 14.4 ci-après l'utilisateur peut voir que l'influence de « Chronic pros- 
tatitis » sur la congestion de la prostate est positive, ce qui est évident; 
que l'influence de l'activité sexuelle sur la congestion de la prostate est né- 
gative, parce que plus un homme est actif sexuellement, plus la probabilité 
qu'il ait une congestion de la prostate est faible ; que l'influence de l'âge sur 
la congestion de la prostate est indéterminée parce que avant soixante-dix 
ans, la prostate grossit quand l'homme vieillit, ce qui augmente la proba- 
bilité de congestion, mais au-delà, la prostate s'atrophie et risque moins de 
se congestionner. 

La figure 14.4 ci-après montre les différents types d'influences : les liens 
sont coloriés par Elvira selon la nature de l'influence (positive, négative, 
indéterminée), et ont une épaisseur proportionnelle à l'importance de l'in- 
fluence de la variable amont sur la variable aval. Par exemple, nous pou- 
vons donc y lire que l'influence positive de « Chronic prostatitis » sur la 
congestion de la prostate est plus importante que l'influence négative de 
l'activité sexuelle sur la congestion de la prostate. 

Ainsi, la coloration des liens par Elvira nous a aidés de plusieurs ma- 
nières. Tout d'abord, elle a constitué un moyen de savoir quelles tables de 
probabilités conditionnelles devaient être définies puisque les liens noirs 
représentaient des tables de probabilités vides. Il était également très utile 
de raffiner les probabilités afin de refléter correctement les influences pré- 
vues par l'urologue. Dans les modèles causaux, la plupart des influences 
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Chronic prostatitis' 


Aexual activity : 


Prostate congestion’^ 


FlG. 14.4 Copie d'écran de PROSTANET. 


sont positives (liens rouges). Pour cette raison, les liens bleus et violets 
amènent le modélisateur à soupçonner que certains paramètres puissent 
être erronés. C'était le cas, par exemple, de la variable « PSA 6 », qui initia- 
lement avait cinq parents binaires. 

Puisque la variable « PSA » avait quatre états et ne pouvait être repré- 
sentée par aucun modèle canonique, telle qu'une porte OU bruitée, l'expert 
devait préciser 128 probabilités. 

Évidemment, il était impossible de les déterminer pour refléter conve- 
nablement les influences entre nœuds, notamment les influences négatives 
comme celle de « MedFinas » 7 sur « PSA ». Alors, après plusieurs tenta- 
tives infructueuses, où il subsistait toujours des influences indéfinies, nous 
avons décidé de supprimer le lien de « Rectal examination » vers « PSA », 
parce que si les médecins savent que l'examen rectal peut altérer les va- 
leurs de PSA, ils ne font pas ce test avant d'avoir les résultats de « PSA ». 
De plus, nous avons ajouté un nœud auxiliaire, « PSA aux », pour faire 
divorcer les parents de PSA afin de grouper les facteurs physiques qui 
peuvent influencer « PSA ». Le nouveau nœud avait seulement trois pa- 
rents : « Prostate Cancer », « Metastasis » et « Chronic Prostatitis ». En- 
suite, nous avons renommé « PSA » en « PSA total » pour éviter la confu- 
sion et défini comme parents « PSA aux » et « MedFinas ». Ainsi, l'expert 
a été en mesure de définir les probabilités. 

De plus, après introduction de toutes les probabilités, nous avons pu 
retirer quelques liens, parce que Elvira mettait en évidence que l'influence 
qu'ils représentaient était nulle. 


6 PSA signifie Prostate-specific antigen (antigène prostatique spécifique) : la présence de 
cette substance dans le sang peut aider à détecter un cancer de la prostate. 

7 MedFinas signifie médication avec le Finasteride, un traitement de l'hyperplasie bé- 
nigne de la prostate et d'autres problèmes masculins comme la chute de cheveux. 
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FlG. 14.5 Analyse de l'effet de l'âge sur le cancer de la prostate 


14.3.3 Déboguage 

Après l'introduction de chaque probabilité, nous avons constaté que 
certaines probabilités étaient surestimées. Par exemple, la probabilité a prio- 
ri d'avoir un cancer de la prostate était supérieure à 50 %, ce qui est vrai- 
ment éloigné de la réalité. Toutefois, les fonctionnalités graphiques comme 
la représentation des chaînes de raisonnement, la représentation des signes 
des influences, le développement sélectif de nœuds et la représentation si- 
multanée de plusieurs cas d'évidence [Lac03] nous a aidé à détecter cer- 
taines valeurs qui avaient été surestimées, comme cela est indiqué sur la 
figure 14.5 . 

Dans cet exemple, nous essayons d'étudier l'effet de la variable « Âge », 
l'un des facteurs majeurs de risque de cancer de la prostate. Dans l'image 
nous pouvons voir certains des outils fournis par Elvira permettant cette 
analyse. Nous avons développé les deux nœuds afin de nous concentrer 
sur eux. Nous avons créé quatre cas d'évidence afin d'étudier comment 
les changements d'âge affectent les probabilités a posteriori de cancer de 
la prostate. Chaque cas, représenté avec des couleurs différentes, contient 
seulement une observation correspondant à Tune des quatre valeurs dif- 
férentes du nœud « Âge ». De plus, nous avons représenté les chaînes de 
raisonnement du « Âge » vers « Prostate Cancer ». Dans des ces chemins, 
les nœuds sont coloriés selon le type et l'importance de l'influence que le 
nœud « Âge » exerce sur eux. 
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Après cette phase de déboguage, nous avons obtenu la sixième version 
de PROSTANET. 

14.3.4 Évaluation 

Cette version a été évaluée en analysant 15 historiques cliniques de pa- 
tients et cinq cas virtuels. Pour chacun, l'affichage simultané de plusieurs 
cas [Lac03] d'évidence nous a permis d'étudier l'impact de l'évidence sur 
certaines variables et de détecter certaines incohérences. De plus, la repré- 
sentation graphique des chaînes de raisonnement nous a permis de nous 
concentrer seulement sur les chemins par lesquels l'information se propage 
d'un ensemble d'observations vers une variable d'intérêt afin d'analyser au 
mieux les influences. D'autre part, la classification des observations a per- 
mis à l'expert d'évaluer la valeur de diagnostic de ses composants. Dans 
19 cas sur 20, PROSTANET a donné le même diagnostic que l'expert hu- 
main. Dans le cas où le diagnostic était erroné, l'analyse des chaînes du 
raisonnement, et la classification des observations nous ont permis de dé- 
tecter les probabilités qui ont dû être ajustées pour obtenir la version finale, 
représentée sur la figure 14.6 ci-après. On voit sur cette copie d'écran cer- 
taines fonctionnalités d'explication d'Elvira, comme le développement de 
certains nœuds, la représentation graphique de la nature et de l'importance 
des influences et l'affichage simultané de plusieurs cas. 

14.3.5 Historique des versions 

Le tableau 14.1 page 334 montre les propriétés les plus importantes de 
chaque version. Les deux premières colonnes contiennent l'identifiant et la 
date de la création. Les autres correspondent, respectivement, au nombre 
de nœuds, de liens, de paramètres (au total), de paramètres restant à éva- 
luer par l'expert, et de paramètres déjà estimés. L'avant-dernière colonne 
contient le nombre maximal de parents d'un nœud et la dernière indique si 
le modèle contenait des modèles canoniques ou non. 


14.4 Conclusion 

Dans ce chapitre, nous avons montré que les systèmes experts médicaux 
doivent tenir compte de différents types d'incertitudes. C'est une des rai- 
sons pour lesquelles les modèles graphiques probabilistes, et notamment 
les réseaux bayésiens, sont fréquemment utilisés pour construire les sys- 
tèmes de diagnostic et d'aide à la décision dans le domaine médical. L'obs- 
tacle principal à un usage plus courant de tels systèmes est la difficulté 
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FlG. 14.6 Le réseau bayésien Prostanet 


de construction des modèles : en principe, ils peuvent être construits au- 
tomatiquement à partir de bases de données, mais en pratique, les bases 
de données médicales ne sont pas de qualité suffisante et les algorithmes 
d'apprentissage ne parviennent pas à établir des modèles précis à partir 
de celles-ci. De plus, les modèles construits automatiquement ne sont pas 
causaux, ce qui les rend difficilement acceptables pour les experts humains. 
En conséquence, la manière usuelle de construction d'un réseau bayésien 
médical consiste à établir un graphe causal modélisant la connaissance ex- 
perte, puis à obtenir les probabilités conditionnelles à partir des bases de 
données, de la littérature, ou d'évaluations subjectives. Malheureusement, 
il n'y a aujourd'hui aucune méthodologie établie pour ce processus : la 
construction de réseaux bayésiens médicaux est plus un art qu'une tech- 
nique. 

Nous nous sommes efforcés dans ce chapitre de décrire les étapes du 
processus de manière détaillée et de donner quelques conseils généraux en 
matière d'ingénierie de la connaissance. Nous avons illustré la plupart de 
ces idées à l'aide d'un exemple détaillé : la construction de Prostanet, 
un réseau bayésien pour diagnostiquer le cancer de la prostate, construit à 
l'aide d'un urologue. Les difficultés principales que nous avons rencontrées 
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Ver. 

Date 

Nœuds 

Liens 

Param. 

A estimer 

Estimés 

Max. par 

M. C. 

1 

14/12/00 

26 

30 

1128 

564 

0 

8 

Non 

2 

28/1/01 

34 

46 

184 

92 

0 

4 

Non 

3 

15/2/01 

43 

75 

564 

282 

0 

6 

Non 

4 

4/3/01 

43 

75 

564 

259 

68 

6 

Non 

5 

27/5/02 

45 

79 

812 

169 

132 

4 

Oui 

6 

29/6/02 

45 

77 

836 

165 

165 

4 

Oui 

7 

22/8/02 

47 

81 

850 

170 

170 

4 

Oui 


Tab. 14.1 Versions de Prostanet 


ont été liées à la communication entre l'expert humain et le spécialiste en 
ingénierie de la connaissance. Un seul expert humain, dont les disponibili- 
tés étaient limitées, a pu contribuer à la création du modèle. Cet expert a dû 
estimer subjectivement la plupart des probabilités et, comme nous l'avons 
dit, il a eu tendance à surestimer bon nombre d'entre elles en raison de 
son manque d'expérience dans le domaine des probabilités. La construc- 
tion de Prostanet a été toutefois facilitée par les possibilités d'explication 
d'Elvira, notamment parce que celles-ci ont permis d'identifier rapidement 
les paramètres erronés. Le processus complet a nécessité énormément de 
temps. La construction du graphe causal a duré environ un an. Il serait 
par conséquent très utile de disposer d'outils facilitant la construction ma- 
nuelle de réseaux bayésiens, en particulier en ce qui concerne l'estimation 
subjective de probabilités. De ce point de vue, Elvira constitue un puissant 
support de dialogue entre le modélisateur et l'expert, mais de nombreuses 
améliorations restent à apporter. 
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Annexe A 


Théorie des graphes 


L'idée de base de la théorie des graphes est de proposer un outil 
de manipulation et d'étude d'un ensemble fini sur lequel est définie une 
relation binaire, quelle que soit cette relation. Bien que cette théorie soit 
bien développée, la terminologie est plutôt fluide. On se référera à [Ber58], 
[Ber73] et [G0I8O]. Cependant, le domaine des réseaux bayésiens contraint 
certaines caractéristiques des graphes qu'il utilise. Par exemple, dans ces 
graphes, un élément ne sera jamais en relation avec lui-même. C'est pour- 
quoi les définitions que l'on donnera ici sont plus proches des définitions 
données par [CDLS99] et [Mee97] que de celles des livres cités ci-dessus. 


A.l Définitions générales 


La théorie des graphes se donne donc pour objectif d'étudier de ma- 
nière abstraite un type de structure d'ensemble qui ne dépend que d'une 
relation binaire entre ses éléments. Les graphes peuvent alors être interpré- 
tés comme une description des relations entre paires d'éléments. Il peut être 
ainsi tout autant question d'étudier l'ensemble des villes de France reliées 
par autoroute (deux villes sont liées s'il existe une autoroute pour aller de 
l'une à l'autre) que d'analyser le comportement d'un automate (deux états 
possibles de l'automate sont liés si l'automate est capable de passer du pre- 
mier au second). 
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A.l. Définitions générales 


Le caractère abstrait d'une telle description permet à cette théorie d'avoir 
des champs d'application extrêmement vastes et variés. De plus, elle peut 
facilement être généralisée à des relations entre ensembles d'éléments (hyper- 
graphe). 

Définition A.l (Graphe) 

Soit V = {vi , . . . , v n } un ensemble fini non vide. Un graphe G sur V est défini par 
la donnée du couple 

G = (V, E) où E c {(u,v) ||u, v G V et u f v } 1 
V est alors nommé l'ensemble des nœuds de G. 

On peut considérer E comme la description par extension de la relation 
binaire citée plus haut. Cette définition a l'avantage de ne présupposer que 
le minimum sur la relation : on lui interdit seulement d'être réflexive. 

Plus particulièrement, il est à noter que cette relation n'a pas à être sy- 
métrique : les paires sont ordonnées de sorte que (u,v) f (v,u). La défini- 
tion A.l se spécialise donc naturellement en plusieurs notions différentes 
où l'on précisera, par exemple, le respect de la symétrie ou de l'antisymé- 
trie. Les distinctions fondamentales entre types de graphes dépendent de 
la nature exacte des éléments de E. 

Définition A. 2 (Arête et Arc) 

Soit un graphe G = (V, E). Pour tout élément (u, v) e E, 

• (u, v) est une arête (noté (u — v)) si et seulement si (v, u) G E, 

• (u, v) est un arc (noté (u— iv)) si et seulement si (v, u) ^ E. 


La notion d'orientation a beaucoup d'importance pour ces définitions. 
Dans un arc, les deux éléments de V ne jouent pas le même rôle alors que 
dans une arête, ces éléments sont symétriques. 

Exemple A . 1 Pour reprendre les exemples cités plus haut, la relation entre les villes reliées 
par autoroute est clairement symétrique : les éléments de E dans ce cas, seront bien des 
arêtes de type (Paris — Lille) ; alors que dans le cas de l'automate, ce n'est pas parce que 
celui-ci peut passer de l'état A à l'état B qu'il pourra passer de B à A. Les éléments de E 
seront donc ici des arcs de type (Etat\— >EtatB ). 

Cette différenciation entre types d'éléments de E permet alors de définir 
les sous-types principaux de graphe : 

1 Certaines définitions acceptent (u,u) dans E. Elles se réfèrent alors à notre définition 
de graphe comme à celle de graphe simple. De même, ces définitions peuvent inclure la 
possibilité d'existence de plusieurs paires (u, v) identiques dans E. Il ne sera question par 
la suite que de graphes simples n'autorisant qu'une occurrence de chaque paire (u, v) dans 
E. 
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»► Définition A. 3 (Graphes orientés, non _orientés, mixtes) 

Un graphe G = (V, E) est un graphe orienté (noté G ) si et seulement si tous les 
éléments de E sont des arcs. 

De même, G est un graphe non orienté (noté G) si et seulement si tous les éléments 
de E sont des arêtes. Un graphe mixte est un graphe ni orienté, ni non orienté 2 . 

NOTE A. 2 De telles définitions de E ainsi que des arcs et des arêtes permettent de définir 
et de manipuler simplement, de manière homogène les graphes orientés, non orientés et 
mixtes. Elles posent cependant un problème souvent éludé mais qui mérite ici d'être posé. 
Dans E défini comme plus haut, un arc apparaît une fois ((u— >v)) alors qu'une arête appa- 
raît deux fois ((u — v) et (v — u)). Ce qui implique, par exemple, que le nombre de paires 
d'éléments de V reliés dans le graphe n'est pas le cardinal de E. Pour être mathématique- 
ment correct, il faudrait définir la relation d'équivalence sur E : (a, b) [xi (c,d) O [(a, b) = 
(c, d) ou (a, b) = (d, c)] et utiliser l'ensemble-quotient E^ plutôt que E. On retrouverait 
alors que le cardinal de E ^ est le nombre de paires d'éléments de V liés dans G. On confond 
souvent (implicitement) E et E| M . On le fera ici aussi, mais explicitement. 

Un graphe G peut être désorienté (noté G) en remplaçant tous ses arcs 
par les arêtes correspondantes. La figure A.3 page 342 est le graphe déso- 
rienté du graphe de la figure A.2 ci-après. Le graphe désorienté représente 
la fermeture symétrique de la relation sous-jacente au graphe initial. 

Une relation symétrique (par exemple une relation d'équivalence) entre 
les éléments de V sera donc représentée par un graphe non orienté alors 
qu'une relation anti-symétrique (par exemple une relation d'ordre partiel) 
le sera par un graphe orienté. Plus précisément, le rapport entre relation 
d'ordre et graphe orienté peut être formalisé comme suit : 

Définition A. 4 (Ordre compatible) 

Soit un ordre partiel -< sur V, -< est dit ordre compatible topologiquement avec 

G = (V, E) lorsque V (u— iv) G E, u -< v. 


Cette définition peut être utile dans les deux sens : on note y _< l'en- 
semble des graphes orientés sur V avec lesquels -< est compatible. Réci- 
proquement, on peut définir l'ensemble des relations d'ordre total sur V 
compatibles avec G . Sous certaines conditions décrites dans l'exemple A.4 
page 341, l'algorithme A.l ci-après retrouve un ordre total (dit topolo- 
gique) compatible avec la structure d'un graphe G . 

Les deux sous-sections suivantes définissent des notions et des termi- 
nologies qui présentent un certain parallélisme pour les graphes orientés 
puis pour les graphes non orientés (ou mixtes). 

9 — ^ — 

Même si les notations G et G ont le mérite d'expliciter le type du graphe, elles ont 
le défaut d'alourdir la notation. Il est donc possible que Ton note le graphe G, qu'il soit 
orienté, mixte ou non orienté. Les notations « lourdes » ne seront utilisées que lorsqu'elles 
seront indispensables. 
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^OrdTopo N 

1 Début 

2 Vv G V, #v G- 0 

3 Pour i <— 1 /* | V| Faire 

4 Choisir v G {v|| (#v = 0) A (V (u— >v) ,#u / 0) } 

5 #vf-i 

6 Fin 

V J 

FlG. A.l Recherche d'un ordre topologique sur le graphe orienté G = (V, E) 


A.2 Notions orientées 

Soit un graphe (a = (V, E), pour tout arc (u— iv) G E, u est l 'origine de 
l'arc, v est son extrémité, u est alors un parent (ou prédécesseur) de v ; v est 
Y enfant (ou successeur) de u. On notera ET V l'ensemble des parents de v et E u 
l'ensemble des enfants de u. On définit de même l'ensemble des parents ou 
des enfants d'un sous-ensemble A de V : 

• n v = {u G V|| (u— >v) G E}; 

• ETa = {u G V \ A||3u G A, (u— »v) G E}; 

• E u = {v G V|| (u->v) G E}; 

• E A = {v G V \ A||3v G A, (u— iv) G E}. 

Une racine d'un graphe est un nœud sans parent. Une feuille est un 
nœud sans enfant. 
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Exemple A. 3 Dans la figure A.2 , 

. t 7}, {(1,2), (2, 4), (2, 6), (3, 2), (3, 5), (4,1), (4, 7), (5,6)}}; 

• ïï 2 ={I,3}; 
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• =2 ={4,6}; 

• TT{i , 2 , 5 } = {4, 3}; 

• 3 est une racine ; 

• 7 est une feuille. 


Définition A. 5 (Chemin, Circuit) 

Dans un graphe orienté G = (V, E), un chemin est une séquence d'arcs 
vérifiant la propriété suivante : l'origine de tout arc et est l'extrémité de l'arc e^i 
précédant dans la séquence. 

Un circuit est un chemin dont l'extrémité du dernier arc est l'origine du pre- 
mier. 


Un chemin simple est un chemin dans lequel aucun arc n'apparaît plus 
d'une fois. Un chemin élémentaire est un chemin dans lequel aucun nœud 
n'apparaît plus d'une fois. 


Exemple A. 4 Dans la figure A.2 page précédente, 

• {(3, 2), (2,4), (4, 7)} est un chemin (simple) ; 

• {( 1 , 2) , (2, 4) , (4, 1 )} est un circuit. Parce qu'il existe au moins un circuit dans G , il 
n'existe pas de relation d'ordre topologiquement compatible avec . 


Enfin, il faut définir les notions de descendants, d'ascendants (ou d'ancêtres 
et de non-descendants) d'un nœud : 

• desc (v) = {u G V||il existe un chemin de v vers u}. 

On construit itérativement desc (v) en utilisant la propriété suivante : 
desc (v) = U uedesc(v) (Eu). 

• anc (v) = {u G V||il existe un chemin de u vers v). 

De même, itérativement : 

anc (v) U u g anc ( v ) (TT U ). 

• nd (v) = {u G V||il n'existe pas de chemin de v vers u} 

= V \ ({v} U desc (v)) 


A.3 Notions non orientées 

Il faut noter tout d'abord que, étrangement, les notions non orientées ne 
s'appliquent pas simplement aux graphes non orientés. En effet, elles sont 
valables pour tout élément de E (que cet élément soit un arc ou une arête). 
C'est pourquoi on utilisera dans cette section la notation (ufAv) indiquant 
que (u, v) ou/ et (v, u) est dans E 3 . 

3 (u<->v) <^=}> ((u— >v) V (v— m) V (u — -v)) 

CED 
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Malheureusement, par un abus de langage, (uf->v) est appelé également 
une arête. Pour expliquer cette terminologie, on peut, par exemple, consi- 
dérer que, pour un graphe G, (uf->v) indique la présence d'une arête (u — v) 
dans le graphe « désorienté » correspondant à G. 

Soit un graphe G = (V, E) quelconque, pour tout (uf->v), u et v sont les 
sommets de l'arête (uf->v). On dit alors que u et v sont des nœuds adjacents. 
Un nœud pendant est un nœud qui n'est sommet que d'une seule arête. 

On notera f> u = C V|| (uf-tv) G E} le voisinage du nœud u. De même, 
VA C V, -&a = {v G V\ A||3u G A, (uf-tv) G E}. 

Le nœud u n'appartient pas à -& u (de même A n'est pas inclus dans $a)- 
Parfois il est intéressant de pouvoir manipuler la fermeture du voisinage : 

f> u = $u U {u} et -&a = ’&A U A. 

Note A. 5 Comme on l'a déjà indiqué plus haut, ces notions non orientées ont un sens 
dans un graphe G orienté. Particulièrement : 

• les sommets d'un arc sont son origine et son extrémité, 

• l'origine et l'extrémité de tout arc sont des nœuds adjacents, 

• Vu g v,ü u = n u U G u , 

• les nœuds pendants sont soit des racines, soit des feuilles. 



FlG. A. 3 Représentation d'un graphe non orienté 


Exemple A. 6 Dans le graphe non orienté de la figure A.3 , 

. G ={{1 7}, {(1,2), (2,1), (2,4), (4, 2) (5, 6), (6, 5)}}; 

. ={1,3, 4, 6}; 

• 7 est pendant. 

Définition A. 6 (Chaîne, Cycle) 

Dans un graphe quelconque G = (V, E), une chaîne est une séquence d’arêtes 
( e i)ie{i...p} vérifiant la propriété suivante : pour tout i G {2 ... p — 1}, l'une des 
extrémités d'une arête est une extrémité de l’arête et_i précédente; l'autre ex- 
trémité de ci est une extrémité de l'arc suivant et+i. 
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Un cycle est une chaîne dont une extrémité du dernier arc est une extrémité 
du premier. 

Note A. 7 Un chemin est une chaîne, tout comme un circuit est un cycle. Par contre, dans 
un graphe orienté, il existe des chaînes qui ne sont pas des chemins (et des cycles qui ne 
sont pas des circuits). Dans la figure A.2 page 340, {(3, 2), (2, 6), (6, 5)} est une chaîne mais 
pas un chemin. 

De même que pour les chemins, une chaîne simple est une chaîne dans 
laquelle aucun arc n'apparaît plus d'une fois. Une chaîne élémentaire est une 
chaîne dans laquelle aucun nœud n'apparaît plus d'une fois. 

Note A. 8 Dans la terminologie anglo-saxonne, a cycle représente un circuit. Ce qui pose 
bien sûr beaucoup de problèmes de traduction. Par exemple, un DAG est un Directed Acyclic 
Graph c'est-à-dire un graphe orienté sans circuit, mais avec cycle ! 


Un chemin, ainsi qu'une chaîne, peut être défini soit par la donnée de 
la séquence d'arcs/ arêtes qui le constitue, soit par celle de la séquence de 
nœuds qu'il rencontre. Le chemin {(1,2), (2,4), (4,3)} peut ainsi s'énoncer 
plus rapidement par {1 , 2, 4, 3}. 


A.4 Typologie et propriétés des graphes 

Définition A. 7 (Sous-graphe et Graphe partiel) 
Soit un graphe G = (V, E), VW c V, VF c E, 

• (W,E n W x W) est un sous-graphe de G 

• (V, E) est un graphe partiel de G 


Un sous-graphe de G est donc obtenu en supprimant certains nœuds 
de V (ainsi que les arêtes dont un sommet au moins a été supprimé). Un 
graphe partiel de G est obtenu en supprimant uniquement certaines arêtes. 

Définition A. 8 (Connexité, Connexité forte. Graphe complet) 

• connexité : Un graphe G = (V, E) est connexe si et seulement si pour tout 

u, v G V, u / v, il existe une chaîne entre u et v. 

• connexité forte : Un graphe G est fortement connexe si et seulement si pour 
tout u, v G V, u f v, il existe un chemin entre u et v. 

• graphe complet : Un graphe G est complet si et seulement si Vu, v G V, u f 

v, (uf->v) G E. 


La connexité et la complétude sont des notions non orientées alors que 
la connexité forte nécessite que le graphe soit orienté. 
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Définition A. 9 (Composante connexe. Clique) 

• Les composantes connexes d'un graphe sont les sous-graphes connexes maxi- 
maux (c'est-à-dire de cardinal maximal). 

• De même, les cliques d’un graphe sont les sous-graphes complets maximaux. 


Les composantes connexes forment une partition du graphe G, de même 
que les cliques. Il n'existe pas d'arêtes entre deux nœuds de deux compo- 
santes connexes différentes. En revanche, il peut exister des arêtes entre 
deux nœuds de deux cliques différentes. Un graphe particulier, structure 
de second niveau, appelé graphe de jonction est d'ailleurs défini sur l'en- 
semble des cliques de G et relie ces deux cliques entre elles s'il existe une 
telle arête dans G. La figure A.4 représente le graphe de jonction des cliques 
du graphe de la figure A.3 page 342. 



FlG. A. 4 Graphe de jonction de la figure A.3 page 342 


Propriété A. 10 

Un graphe est connexe si et seulement s'il n'est composé que d'une composante 
connexe. 

Définition A. 11 (Arbre, Arborescence) 

Un graphe G = (V, E) est un arbre si et seulement s’il est connexe et sans cycle. 

Un graphe G est une arborescence si et seulement si G est un arbre et possède une 
unique racine. 


Une fois de plus, il est à noter qu'un arbre est un graphe non nécessai- 
rement orienté alors qu'une arborescence implique que G soit orienté. 

Un e forêt est un graphe dont toutes les composantes connexes sont des 
arbres. Ce qui montre la limite de la terminologie puisque, en théorie des 
graphes, un arbre (même partiel) est une forêt. 

Enfin, les arborescences possèdent une série de propriétés qu'il est in- 
téressant de connaître (voir les références, entre autres [Ber73], pour les dé- 
monstrations). 
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Théorème A.l 

Pour tout graphe G = (V, E), les propositions suivantes sont équivalentes : 
® G est un arbre. 

® G est un graphe connexe, sans cycle. 

® G est connexe et |E| — |V| • 1. 

© G est connexe et minimal pour [Ej. 

© G est sans cycle et |E| = |V| — E 
© G est sans cycle et maximal pour |E|. 

© Vu, v G V, il existe une et une chaîne deuàv. 

® Tout graphe partiel de G est non connexe. 

Les notions de théorie des graphes présentées ci-dessus sont suffisantes 
pour la description qualitative des connaissances dans un réseau bayésien. 
Pour la description quantitative de ces connaissances, il est maintenant né- 
cessaire de définir les concepts principaux de la théorie des probabilités. 


CÜD 
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Probabilités 


Le domaine des réseaux bayésiens a comme particularité d'allier deux 
champs différents des mathématiques dans le but de représenter l'incer- 
titude : la théorie des graphes, d'une part, qui fournit le cadre nécessaire 
pour une modélisation qualitative des connaissances ; et la théorie des pro- 
babilités, d'autre part, qui permet d'introduire une information quantita- 
tive dans ces connaissances. 


B.l Probabilités 


La théorie des probabilités propose un cadre mathématique pour re- 
présenter quantitativement l'incertain. La présentation qui est faite ici est 
forcément tronquée puisque orientée vers son utilisation dans le domaine 
des réseaux bayésiens. En particulier, l'espace sur lequel seront définies les 
probabilités restera discret et fini. Ce n'est bien sûr pas le cas général mais 
c'est suffisant pour ce qui suit. 
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B.l.l Définitions principales 

Définition B.l (Probabilité) 

Soit D un ensemble fini 1 non vide, (£’,n,u) une algèbre sur Cl (£ c 2 a , Z'en- 
semble des parties de Cl). Soit P : £ — > [0, 1] une fonction à valeurs réelles. 

P est une probabilité sur (O, £) si et seulement si elle vérifie : 

® VA G 0 < ?{A) < 1; 

® y A, B G £, [A n B = 0] ?(A U B) = P(A) + P [B). A et B sont alors 

dits mutuellement exclusifs; 

® P(Q) = 1 (et donc P(0) = 0). 

Tout élément (non nul) minimal au sens de l'inclusion de £ est appelé 
un événement élémentaire sur O qu'on nomme souvent l'univers. Il est à no- 
ter qu'un événement sur O est une sous-partie de O. Un événement (modi- 
fication de l'univers) est donc en fait représenté par l'ensemble des états de 
l'univers auxquels il peut mener. Cl est appelé l'événement certain. De même, 
on appellera 0 l'événement impossible. 

Exemple B.l Si O représente un jeu de carte, 

• l'événement « tirer l'As de pique » est représenté par le singleton {As de pique}, 

• « tirer un as » sera représenté par le sous-ensemble de Cl composé des quatre as du 
jeu ; 

• « tirer Tune des cartes du jeu » est l'événement certain lorsqu'on tire une carte dans 
un jeu. Cet événement est bien représenté par l'ensemble des cartes possibles ; 

• « ne tirer aucune carte » (0) est l'événement impossible lorsque Ton tire une carte. 


Définition B. 2 (Variable Aléatoire (v.a.)) 
Une variable aléatoire est une fonction X définie sur O : 


X : 


Cl —i V x 
w i — > X (tu) 


Pour x G T>x, on note alors {X = x} Y événement { tu € ü| X (tu) = x). 
T>x est le domaine de définition de X. 


Une variable aléatoire permet de caractériser des événements (qui sont 
des sous-ensembles d'événements élémentaires) par une simple valeur. Si 
le domaine de définition de la variable X est fini, alors X est une variable 
aléatoire discrète. Comme cette étude se restreint à un Cl fini, les variables 
aléatoires seront donc toujours considérées comme discrètes. De plus, on 
parle de variable aléatoire binaire lorsque le domaine de définition de la va- 
riable ne possède que deux éléments (« 0/1 », « oui/non », etc.). 

1 Rappelons que Ton peut définir une probabilité sur des ensembles infinis. Toutefois, il 
ne sera question que d'ensembles finis dans le cadre de cette présentation. 
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Exemple B. 2 Pour étudier la distribution de probabilité de la somme du tirage de deux 
dés, il suffit de définir une variable aléatoire représentant cette somme, ce qui permet de 
manipuler beaucoup plus facilement les événements correspondants (voir le tableau B.l). 


V x 

...1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13... 

{X = x} 

0 

(1,1) 

(L2) 

(2,1) 

(1,3) 

(2,2) 

(3,1) 

(1,4) 

(2,3) 

(3,2) 

(4,1) 

(1,5) 

(2,4) 

(3,3) 

(4,2) 

(5,1) 

(1,6) 

(2,5) 

(3,4) 

(4,3) 

(5,2) 

(6,1) 

(2,6) 

(3,5) 

(4,4) 

(5,3) 

(6,2) 

(3,6) 

(4,5) 

(5,4) 

(6,3) 

(4,6) 

(5,5) 

(6,4) 

(5,6) 

(6,5) 

(6,6) 

0 

P({X=x}) 

0 

1 

36 

i 

18 

i 

12 

i 

9 

5 

36 

i 

6 

5 

36 

i 

9 

i 

12 

2 

18 

i 

36 

0 


TAB. B.l Distribution des événements élémentaires en fonction d'une v.a. 


Pour la suite, on suivra la notation suivante : une variable aléatoire sera 
représentée par une majuscule (A, B, . . . ). La valeur que prend cette va- 
riable aléatoire sera notée par la même lettre mais minuscule (a € 'Daj 
b G V b, c G 'De, ■ Enfin, quand aucune ambiguïté ne sera possible, on 
simplifiera au maximum la notation un peu lourde de l'événement repré- 
senté par {A = a}; de telle façon que : P ({A = a}) = P (A = a) = P (a). 

Pour terminer, il est certainement intéressant de noter la différence entre : 

• P(A) qui est la probabilité associée à l'événement A C O; 

• P({A = a}) = P(A = a) = P (a) qui est la probabilité associée à l'évé- 
nement {A = a} ; 

• P (A) qui est une fonction qui associe à tout élément a G P a la valeur 
de probabilité de l'événement P(A = a). 


B.1.2 Probabilités sur plusieurs variables 

Une variable aléatoire est donc un moyen pour condenser une infor- 
mation pertinente sur un univers. Cependant, il faut souvent plus d'une 
variable aléatoire pour caractériser précisément l'état de l'univers. Pour re- 
prendre l'exemple du tirage de deux dés, la somme des deux tirages est une 
information intéressante, mais la valeur de chacun des deux tirages est une 
autre information qui peut s'avérer nécessaire. L'étape suivante est bien sûr 
d'avoir le moyen de croiser ces différentes sources d'information. 
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► Probabilités jointes 


Soit un système (un univers) Cl ; il est pratique de décrire ce système 
grâce à un ensemble de paramètres qui permet de le caractériser à tout 
moment. Par exemple, la connaissance de la position, de la vitesse et de 
l'accélération d'un système mécanique permet de décrire sa trajectoire. Si 
le système est déterministe, on connaît exactement la valeur de chacun de 
ces paramètres ; par contre, si le système est probabiliste, il faut tenter de 
lui adjoindre une probabilité sur ces différentes variables qui permettra de 
le décrire. 


Définition B. 3 (Probabilités jointes) 

Soient A et B deux variables aléatoires sur le même univers O. On parle alors de 
probabilité pour la fonction définie sur x Vg par : 


Pab : 


T’a x 
( a, b) 


[ 0 , 1 ] 

P AB (a, b) =P ({A = a) D {B = b}) 

=P ({ eu € Cl | A(cu) = a A B(tu) 


b}) 

(B.l) 


Cette définition peut être étendue à tout ensemble fini U = {Xi , . . . , X n } de 
variables aléatoires définies sur le même univers Cl. 


Pu 


(g) v Xi 

i £{1 

u= (xi,...,x T 


[ 0 , 1 ] 


Pu(u) =p ( n {Xt 

,t6{1,...,n} 



=P 


eu £ (1 A Xi(cu) = xt 

i £{1 ,...,n) 

(B.2) 


Toutes ces probabilités jointes sont construites à partir de la même fonc- 
tion de probabilité sur Cl : P. La liste des arguments d'une probabilité jointe 
est donc suffisante pour la caractériser. C'est pourquoi il est commun de les 
noter simplement P lorsqu'aucune ambiguïté n'est possible : 

PABCD(a,b,c,d) = P(a, b, c, d) 


Soit U un ensemble fini et non vide de variables aléatoires discrètes sur 
O représentant l'ensemble des paramètres d'un système. U est le vecteur 
d’état du système et Vu = (g) AçU (TA), le produit cartésien des domaines 
de définitions de toutes les variables de U, est l 'espace d'états de U. Enfin, 
un élément d G Vu qui donne une valeur à (ou qui instancie) chacune des 
variables de U est une configuration de U. Une configuration partielle est 
représentée par l'instanciation d'une partie seulement des variables de U. 
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Ces notions sont particulièrement importantes dans le domaine des ré- 
seaux bayésiens. En effet, c'est à cause de ce produit cartésien des domaines 
de définitions des variables aléatoires que l'étude probabiliste de systèmes 
complexes a longtemps été considérée comme impossible en pratique : un 
produit cartésien d'ensembles représente une croissance exponentielle (ex- 
plosion combinatoire) de la mémoire et du temps nécessaire pour le mani- 
puler (en fonction du nombre d'ensembles). 


► Probabilités marginales 

Réciproquement, la donnée d'une probabilité jointe d'ensemble de va- 
riables permet de retrouver la probabilité jointe de chacun de ses sous- 
ensembles. C'est ce qu'on appelle une probabilité marginale. 

Propriété B. 4 (Marginalisation) 

Soit U un ensemble fini, non vide de variables aléatoires, V c U non vide et 
V' = U\V et P(U) la probabilité jointe sur les variables de U; on appelle alors 
marginalisation de P sur V la fonction : 

Vv G T>y, P(v) = Y_ p ( v > v ') (B-3) 

Cette fonction correspond à la probabilité jointe des variables de V. 

L'opération de marginalisation peut être généralisée à toute fonction f 
sur un ensemble de variables U. La notation usuelle (voir [Jen96]) pour 
cette opération est [f] pv où V C U. Donc, la propriété B.3 peut s'écrire fonc- 
tionnellement : 


VVC U,P(V) = [P(U)] iV = Y_ p (V,v') (b.4) 

v'6U\V 


NOTE B. 3 Soient, par exemple, deux variables aléatoires T et L dont la probabilité jointe 
suit le tableau suivant : 


P(bt) 

b 

L 

tl 

0.0578 

0.0782 

t 2 

0.1604 

0.0576 

ta 

0.5118 

0.1342 


Par marginalisation, on peut obtenir P(L = b ) = P ( L = b ,T = ti ) + P(L = b ,T = 
t 2 ) + P(L = b,T = t 3 ) = 0.73,. .. D'où les deux probabilités marginales : 



b C 

P(L) 

0.73 0.27 



ti t 2 t 3 

P (T) 

0.136 0.218 0.646 


dD 
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► Probabilités conditionnelles 

Un concept fondamental en calcul des probabilités, qui permet de tenir 
compte l'information, est celui de probabilité conditionnelle. Pour un événe- 
ment eu de l'univers O, la valeur P (eu) est associée au moins implicitement 
à des conditions de réalisation. Dans l'exemple B.l page 348, l'événement 
« tirer un as » ne se produit que si l'on suppose qu'une carte a été tirée. Et 
c'est bien parce qu'on suppose, dans cet univers Cl, qu'une carte a été tirée 
que l'événement « ne tirer aucune carte » est l'événement impossible. Dans 
ce sens, toute probabilité est conditionnelle car elle implique un contexte. La 
question « Quelle est la probabilité de A » devrait toujours être comprise 
comme « Étant donné le contexte e, quelle est la probabilité de A ?» ; ce qui 
se note P(A | e). 

Soit un univers Cl, MA , B C II (A et B sont des événements de Cl), l'ex- 
pression d'une probabilité conditionnelle de A par rapport à B se traduit 
ainsi par « Étant donné que l'événement B s'est produit, la probabilité que 
l'événement A se produise (ou se soit produit) est x » et s'écrit P [A \ B) = x. 

L'équivalent, pour des variables aléatoires, s'écrit :P(a|b)=P(A = a| 
B = b) = x et se lit « Sur l'ensemble des événements eu vérifiant B (tu) = b, 
la probabilité pour que A(tu) = a est x? ». La fonction P(A | B) est donc 
une fonction de deux variables qui, à tout couple (a, b), associe la valeur 
P(a|b) = P(A = a | B = b). Plus généralement, pour toute valeur de b de 
B, la fonction P(A | b) est une probabilité conditionnelle de A, étant donné 
un événement B = b. 

Exemple B. 4 En notant X la v.a. 2 représentant la somme de deux jets de dés et Y la v.a. 
représentant la valeur que prend le premier jet, on peut chercher à calculer la probabilité 
que le premier des deux tirages de dés soit un « 3 », sachant que la somme des deux dés 
vaut « 10 » : P( Y = 3 | X = 10). Ce qui permet, au passage, de montrer qu'un événement 
possible (Y = 3) peut devenir impossible lorsqu'il est conditionné (par X = 1 0). 

Reste à lier ces trois probabilités jointes, marginales et conditionnelles : 

Définition B. 5 (Loi fondamentale) 

Soient deux variables aléatoires A et B sur le même univers. Pour tout a G Va et 
b G V-q, la probabilité conditionnelle de A = a étant donné B = b est le nombre 
P(a | b) vérifiant : 

P(a, b) = P(a | b).P(b) 

ou fonctionnellement, la probabilité conditionnelle de A étant donné l'événement 
B = b vérifie : 

P(A,b) = P(A | b).P(b) 

2 v.a. = variable aléatoire. 
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Note B. 5 Si P(b) = 0, P(a [ b) est indéterminée. Cette indétermination n'a toutefois que 
peu d'incidence car P(a [ b).P(b) est toujours égale à 0, quelle que soit la valeur donnée à 
P(a I b). 

La relation fondamentale se généralise naturellement : 

Définition B. 6 (Loi fondamentale généralisée) 

Soit un ensemble de variables aléatoires (AJ^ n j sur le même univers, 

P(ai , . . . , û n ) = P(ai).P(a 2> . . . ,a n | ai) 

-P(ai).P(a 2 I ai).P(a 3) ...,a n | ai,a 2 ) 

= ]ir=i p ( a t I ai, - • • . a-i-i ) 

On utilisera parfois la convention P(X | 0) = P(X). 

Note B. 6 La factorisation proposée par cette loi fondamentale généralisée n'a pas d'intérêt 
en termes de complexité algorithmique : on représente une fonction de n variables par 
n fonctions de 1 jusqu'à n variables. Par exemple, une fonction de n variables binaires 
nécessite une taille mémoire proportionnelle à 2 n alors que la factorisation, outre le temps 
de calcul des produits, nécessite une mémoire proportionnelle à , 2 l = 2 n+1 — 2. 

Cette définition permet d'arriver naturellement au théorème de Bayes : 


Théorème B.l 


Si P (b) est positive alors 


nf IU1 P ( b a).P(ci) 

p,a|b)= p[b) 

(Bayes-1) 

Plus généralement, 


■n, i u ï P(b a, c).P(a c) 

P a b,c = , x 

P b c 

(Bayes-2) 


Le théorème de Bayes est plus qu'un théorème opératoire. Il est à la base 
de tout un pan de la statistique nommée, de manière assez compréhensible, 
la statistique bayésienne. 

Sans entrer dans trop de détails, ce théorème peut en effet s'interpréter 
comme suit : supposons que l'on s'intéresse à la variable A. Sans plus de 
renseignements (représenté dans Bayes-2 par C), on peut supposer qu'elle 
suit une loi de probabilité a priori P(A) (resp. P(A | C)). 

Supposons maintenant que B soit observée égale à b. Alors le jugement 
P(A) doit être révisé, et la loi a posteriori de A sachant B = b est obtenue 
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en multipliant P(A) par le coefficient P(B = b | A)/P(B = b), où B est 
fixée à b mais pas A. Cette fonction P(b | A) de la variable A est appelée la 
vraisemblance de A. P(B = b) est fixe et ne sert donc que de coefficient nor- 
malisateur. C'est pourquoi on écrit souvent le théorème de Bayes comme 
suit : 


loi a posteriori oc loi a priori x vraisemblance 

P(A|B,C) oc P(A|C) x P(B|A,C) 


(Bayes-3) 


La statistique bayésienne est donc une approche qui tend à autoriser 
l'application de loi a priori sur des quantités inconnues, quitte à effectuer 
une mise à jour, principalement grâce à cette formule de Bayes, lorsque 
plus de renseignements auront été récoltés. 


B.2 Indépendance conditionnelle 


Manipuler des probabilités jointes de plusieurs variables est une tâche 
ardue qui implique des algorithmes de complexité exponentielle, en fonc- 
tion du nombre de variables. La simple représentation d'une telle loi jointe 
demande une taille mémoire exponentielle (voir la note B. 6 page précé- 
dente). Pour rendre possibles les calculs sur de telles probabilités, il est né- 
cessaire de réduire cette complexité. Cette réduction est rendue possible 
par l'introduction d'une nouvelle notion : l' indépendance conditionnelle. 


B.2.1 Définitions 

L'indépendance conditionnelle est un concept dont l'importance a été 
particulièrement soulignée par [Daw79]. Elle s'est imposée naturellement 
dans le domaine des systèmes experts probabilistes car elle s'interprète 
qualitativement comme la mise en évidence de relations (non numériques) 
entre les variables d'un système et permet donc de bâtir directement la 
structure du modèle en interrogeant les experts. 

Définition B. 7 (Indépendance conditionnelle) 

Soient un univers O et un ensemble V de v.a. sur Cl. Soit X, Y, Z c V. X est 
indépendant de Y conditionnellement à Z (noté X _IL Y | Z) si et seulement si ces 
ensembles vérifient : 


X_IL Y| Z 



P(X| Y,Z) 
P(Y I X,Z) 


P(X I Z) 
P(Y I Z) 


GE) 

www.frenchpdf.com 


Annexe B - Probabilités 


La notion d'indépendance conditionnelle est une notion qui est définie 
explicitement à partir d'une probabilité P. C'est pourquoi certains auteurs 
- tel [Daw79] - utilisent la notation un peu plus lourde : X _LL Y | Z [P] . 

Un cas particulier d'indépendance conditionnelle est l'indépendance 
marginale : Z peut être un ensemble vide. 

Définition B. 8 (Indépendance marginale) 


X1Y «=> 



Vx € T>x, P(Y | X = x) = p(Y) 
Vy G Vy, P(X | Y = y) = p(X) 


NOTE B. 7 Les probabilités conditionnelles sont ici utilisées sans protection. En fait, il fau- 
drait toujours conditionner l'utilisation d'une probabilité conditionnelle par l'assurance de 
son existence même : « siVy G Î> Y etVz G T>z, P (y ,z) > 0 alors on peut utiliser P (X [ Y, Z) ». 


La définition B. 7 page précédente de l'indépendance conditionnelle re- 
vient à dire que, pour la connaissance de X (resp. Y), la connaissance de 
la valeur que prend Y (resp. X) n'apporte rien si on connaît déjà la valeur 
que prend Z. Toute l'information que Y peut apporter sur X est contenue 
dans l'information que Z peut apporter. L'indépendance marginale indique 
que Y ne peut apporter aucune information sur X (et réciproquement). Ces 
relations sont symétriques : X et Y tiennent exactement le même rôle. 

La relation d'indépendance conditionnelle entraîne une série de simpli- 
fications dans l'écriture des probabilités des variables de X,Y et Z. Ainsi : 
VX, Y, Z C V, 

X JL Y|Z 4=> 3F telle que P(X | Y, Z) =F(X,Z) (B.5) 

«=* 3G telle que P(Y | X, Z) = G (Y, Z) (B.6) 

<U=F 3F, G telles que P (X, Y | Z) = F(X,Z).G(Y,Z) (B.7) 

La définition B.5 indique que la probabilité de X conditionnellement 
à Y et Z est une fonction ne dépendant pas de Y. La suivante ( B.6) est la 
symétrique de la première. La dernière ( B.7) propose, elle, une factorisation 
de la probabilité jointe de X et Y conditionnellement à Z. On remplace ici 
un produit par une somme : en supposant toute les variables binaires, la 
représentation de P(X, Y | Z) demande une taille mémoire proportionnelle 
à 2' x ' .ly' ,2^ z ' , alors que la représentation de P(X, Z).G(Y, Z) ne demande 
qu'une taille mémoire proportionnelle à (2 x + 2 Y ) .2 z . Le gain en termes 
de complexité n'est donc pas négligeable. 

Enfin, cette indépendance conditionnelle implique des relations entre 
les différentes probabilités se traduisant par un ensemble de définitions 
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équivalentes à la définition B. 7 page 354 : 

X JL Y| Z <=> P(X | Y, Z) = P(X | Z) (B. 8) 

<*=> P(X, Y | Z) = P(X | Z).P(Y | Z) (B. 9) 

<=ï P(X,Y,Z) = P(X | Z).P(Y | Z).P(Z) (B. 10) 

Exemple B. 8 Dans la population française, quelle est la relation entre la variable « aptitude à la 
lecture » et la variable « pointure » ? 

Même si la réponse « instinctive » à cette question est l'indépendance marginale entre 
ces deux variables, on peut cependant remarquer que la pointure (particulièrement si elle 
est petite) est un indicateur de l'âge de l'individu et donc, dans une certaine mesure, de son 
aptitude à lire. D'où : 

« Aptitude à la lecture » JL « pointure » 
mais 

« Aptitude à la lecture » JL « pointure » | « âge » 

La relation entre indépendance conditionnelle et factorisation de la loi 
va jouer par la suite un grand rôle dans la réduction de la complexité d'une 
représentation de loi jointe. En effet, la représentation de P(X | Y, Z) de- 
mande une taille mémoire proportionnelle à alors que la repré- 

sentation de P(X | Y) ne demande qu'une taille mémoire proportionnelle à 

2 |x| .2 iY1 . 

Plus généralement, supposons une loi jointe P(X-|,... ,X n ). Cette loi 
jointe peut s'écrire par définition des probabilités conditionnelles (et sous 
réserve de positivité) : 

ri 

P(X 1 ,...,X n ) = n(P(X i |X 1 ,...,X i _ 1 )) 

i=1 

Comme il a déjà été dit plus haut, cette factorisation n'est pas très inté- 
ressante du point de vue de la complexité. En revanche, s'il est possible 
de simplifier chaque probabilité P (Xi | Xi , . . . , Xi_i ) grâce à des indépen- 
dances conditionnelles, la complexité du calcul de la loi jointe peut être 
grandement améliorée : 


Théorème B. 2 


Vi, Vi C {Xi , . . . , Xt_i } tel que Xi JL ({Xi , . . 


..Xi-iAVOlVi, 


p(x 1 ) ...,x n ) =n p (Xii vo 

i=1 
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B.2.2 Propriétés 

La relation ternaire d'indépendance conditionnelle vérifie les propriétés 
suivantes : 


Si X JL Y Z 


alors 

Y JL X Z 

(PI) 

Si X JL Y Z 

et 3F, U = F(X) 

alors 

U JL Y|Z 

(P2) 

Si X JL Y Z 

et 3F, U = F(X) 

alors 

X JL Y|Z, U 

(P3) 

Si X JL Y Z 

et X JL W | Y, Z 

alors 

X JL Y, W Z 

(P4) 


[Lau96] propose une formulation textuelle intuitive de ces propriétés. 
En pensant en termes d'information, de connaissance, on peut lire X JL Y | 
Z comme « Connaissant Z, la connaissance de Y n'apporte rien sur X ». 
[Lau96] adopte l'analogie des livres : « Ayant lu Z, lire le livre Y n'ap- 
porte rien de plus sur le livre X ». Dans ce cadre, les propriétés précédentes 
peuvent être lues comme suit : 


Si, ayant lu Z, la lecture de Y n’apporte rien sur le livre X, alors la lecture de X (PI ) 
n’apporte rien sur le livre Y. 

Si, ayant lu Z, la lecture de Y n’apporte rien sur le livre X, alors la lecture de Y (P2) 
n’apporte rien pour la lecture d’un chapitre de X. 

Si, ayant lu Z, la lecture de Y n’apporte rien sur le livre X alors la lecture de Y (P3) 
n’apporte toujours rien sur ce même livre X après avoir lu un chapitre de X. 

Si, ayant lu Z, la lecture de Y n’apporte rien sur le livre X et si, après avoir lu (P4) 
Y, la lecture de W n’apporte rien sur le livre X alors la lecture de Y et de W 
n’apportera rien sur le livre X. 


Démonstration 


Par exemple, pour (P4) : supposons X JL Y | Z et X JL W | Y, Z. Alors, 

X JL W| Y, Z =L P(X, Y, Z, W) = P(X | Y,Z).P(W | Y,Z).P(Y,Z) 

(XJL Y|Z, d'où) = P(X | Z).P(W | Y,Z).P(Y | Z).P(Z) 

= P(X | Z).P(W, Y | Z).P(Z) 

X JL Y, W | Z 

□ 


Une autre propriété, qui n'est généralement pas vérifiée, est à noter : 


Si X JL Y | Z, W et XUZ|Y,W alors XXY,Z|W 


(P5) 


En particulier, (P5) est invalide s'il existe une liaison déterministe entre 
Y et Z. Elle est vérifiée, par exemple, dans le cas où la loi P(X, Y, Z, W) est 
une loi strictement positive. 
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Outils 


T out comme pour les langages de programmation, comparer des ou- 
tils est toujours délicat. Il est difficile de faire la part des choses entre l'objec- 
tif et le subjectif et les préférences ne sont pas forcément aisées à expliciter. 
Pour cette raison, et comme il s'avérait que chaque auteur avait une pré- 
férence différente, nous avons pris le parti de faire de cette difficulté une 
force. Les outils présentés ici sont donc tous décrits par l'auteur qui les pré- 
fère aux autres. Cette annexe n'a donc pas la prétention d'être exhaustive 
sur les outils existants mais présente simplement cinq outils utilisés et dé- 
crits par ceux qui les utilisent. 


C.l Bayes Net Toolbox (BNT) 

C.l.l Présentation 

BNT est une bibliothèque open-source de fonctions Matlab pour la créa- 
tion, l'inférence et l'apprentissage de modèles graphiques dirigés ou non 
dirigés, disponible sur http : //bnt . sourcef orge . net. Ce projet a été 
lancé en 1997 par Kevin Murphy et bénéficie maintenant du soutien de 
nombreux chercheurs qui y apportent de nouvelles fonctions régulière- 
ment, faisant de BNT un outil précieux pour tous les chercheurs. 
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C.1.2 Modélisation 

BNT met à disposition plusieurs densités de probabilité conditionnelles : 

• discret; 

• gaussien (avec parents discrets ou gaussiens) ; 

• OUbruités; 

• et d'autres types à titre expérimental (multiplexeur, softmax, réseau 
de neurones). 

Il est aussi possible de rajouter des a priori de Dirichlet sur les para- 
mètres des densités de probabilités discrètes, ou de faire du partage de pa- 
ramètres pour que la même densité de probabilité soit associée à plusieurs 
nœuds du réseau (utile par exemple pour les modèle de Markov cachés ou 
les réseaux bayésiens dynamiques). 

BNT propose aussi quelques fonctions permettant de manipuler des ré- 
seaux bayésiens étendus tels que : 

• les diagrammes d'influence (LIMID) ; 

• les modèles graphiques temporels tels que les modèles de Markov ca- 
chés (HMM), les filtres de Kalman, les réseaux bayésiens dynamiques 
(DBN). 


C.1.3 Apprentissage 

• Paramètres 

BNT est capable d'estimer les paramètres d'un réseau bayésien à par- 
tir de données complètes (par maximum de vraisemblance ou maxi- 
mum a posteriori ) ou de données incomplètes grâce à l'algorithme EM. 

• Structure 

Concernant l'apprentissage de structure, BNT met à disposition plu- 
sieurs fonctions de score comme BIC ou le critère BDe. La recherche 
exhaustive dans l'espace des DAG est proposée à titre illustratif, ainsi 
qu'une méthode d'échantillonage dans cet espace. 

Les algorithmes K2 (ordonnancement des nœuds), IC /PC (recherche 
de causalité) et IC* /PC* (recherche de causalité avec variables la- 
tentes) sont aussi disponibles. Un package supplémentaire proposé 
sur le site français de BNT (http : //bnt . insa-rouen . f r) pro- 
pose un certain nombre d'autres méthodes : MWST (arbre de recou- 
vrement maximal), GS (recherche gloutonne), SEM (EM structurel), 
TANB (réseau bayésien naïf augmenté par un arbre) et bientôt les 
algorithmes BN-PC (recherche de causalité) et GES (recherche glou- 
tonne dans l'espace des classes d'équivalence de Markov). 
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C.1.4 Inférence 

Algorithmes d'inférence proposés, aussi bien pour des réseaux bayé- 
siens discrets, gaussiens ou mixtes (conditionnels gaussiens) : 

• élimination de variables ; 

• arbre de jonction ; 

• quickscore pour les réseaux de type QMR ; 

• algorithme de Pearl exact (pour les polyarbres) ou approché ; 

• par échantillonage : likelihood zveighting et Gibbs sampling. 


C.2 BayesiaLab 

C.2.1 Présentation 

BayesiaLab est un produit de Bayesia (www . bayesia . com), entreprise 
française dédiée à l'utilisation des méthodes d'aide à la décision et d'ap- 
prentissages issues de l'intelligence artificielle ainsi qu'à leurs applications 
opérationnelles (industrie, services, finance, etc.). 

BayesiaLab se présente comme un laboratoire complet de manipulation 
et d'étude de réseaux bayésiens. Il est développé en Java, et est actuelle- 
ment disponible en versions française, anglaise et japonaise. BayesiaLab 
permet de traiter l'ensemble de la chaîne d'étude de la modélisation d'un 
système par réseau bayésien : modélisation, apprentissage automatique, 
analyse, utilisation et déploiement. 

C.2.2 Modélisation 

BayesiaLab est avant tout un environnement graphique. L'ensemble des 
outils sont donc des outils interfacés graphiquement soit directement avec 
la souris (création de nœuds, d'arcs, etc.) soit par l'intermédiaire de boîtes 
de dialogue (pour la saisie des probabilités par exemple). 

Pour la modélisation rapide d'un réseau, BayesiaLab propose beaucoup 
de raccourcis clavier (N+clic crée un nœud, L+glisser crée un arc, etc.). Il 
possède également une boîte à outils de positionnement automatique des 
nœuds (raccourci P) qui facilite grandement la construction de tels réseaux. 

Il gère un certain nombre de types de nœuds : nœud variable (label ou 
intervalle), nœud contrainte pour l'expression de contraintes existant entre 
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FlG. C.l Modélisation et saisie de la TPC sous BayesiaLab 


des nœuds, nœud utilité pour la qualification des états, nœud décision pour 
les politiques d'actions. Il propose également un éditeur de constantes (réel, 
entier, booléen, chaîne) utilisables dans les équations. 


Pour l'édition des nœuds, il propose : 

• des assistants pour la génération et le nommage des nœuds label et 
intervalle ; 

• différents modes de saisie des distributions de probabilités condition- 
nelles : probabiliste, déterministe et équation ; 

• un éditeur de formules puissant doté d'une librairie complète de fonc- 
tions et d'opérateurs (fonctions probabilistes discrètes et continues, 
fonctions arithmétiques et trigonométriques, etc.), extensible par le 
biais de plug-ins ; 

• des outils de complétion et de normalisation de tables, copier/ coller 
entre tables et applications externes (type tableur ou traitement de 
texte) ; 

• l'association de propriétés telles qu'une marque de couleur, une image, 
un indice temporel, un coût d'observation ; 

• un éditeur de classes permettant de définir des ensembles de nœuds 
partageant les mêmes caractéristiques ; un nœud peut appartenir à 
plusieurs classes et des actions peuvent être réalisées sur l'ensemble 
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FlG. C.2 Import de données sous BayesiaLab : discrétisation et agrégation 


des nœuds d'une classe (déplacement, suppression, copie, modifica- 
tion des propriétés, masquage des nœuds) ; 

• des valeurs numériques à associer aux modalités des variables (label 
ou intervalle) pour permettre des calculs de valeurs espérées au ni- 
veau de chaque variable et globalement pour l'ensemble du réseau ; 

• des noms longs à associer aux modalités des variables (label ou inter- 
valle) ; 

• des fonctionnalités de documentation et de traçabilité des modèles 
par le biais des commentaires hypertextes associés aux nœuds (de tels 
commentaires peuvent également être associés aux arcs et au graphe). 


C.2.3 Apprentissage 

L'apprentissage est un des points forts de BayesiaLab. Il utilise des mé- 
thodes et des algorithmes qui sont à la pointe de la recherche dans le do- 
maine (les fondateurs de Bayesia étant des chercheurs spécialisés dans l'ap- 
prentissage et particulièrement dans l'apprentissage de réseaux bayésiens). 

L'apprentissage dans BayesiaLab prend comme entrée un fichier texte 
ou un lien ODBC décrivant l'ensemble des cas (un cas par ligne ou un cas 
par colonne). Ce fichier peut intégrer un ensemble de caractères indiquant 
les valeurs manquantes. 

Les assistants d'importation permettent la configuration de la lecture 
(séparateurs, ligne de titre, valeurs manquantes, transposition), l'échan- 
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ti borinage, la sélection des colonnes à importer, le typage de ces colonnes 
(variable discrète ou continue, variable de pondération des individus, indi- 
vidu d'apprentissage ou de test), la scission de la base en ensembles d'ap- 
prentissage et de test, l'apport de premières informations statistiques, des 
règles de filtrages des données importées (par exemple, rejet des jeunes de 
moins de quinze ans qui fument), la définition du traitement des valeurs 
manquantes (règle de filtrage, replacement par expertise avec la valeur mo- 
dale, la moyenne ou une valeur spécifiée, utilisation de l'inférence : com- 
plétion statique ou dynamique, EM structurel), le choix de la méthode de 
discrétisation des variables continues (manuelle à partir de la fonction de 
répartition, par égales largeurs, par égales fréquences ou encore par arbre 
de décision), l'agrégation manuelle ou automatique des modalités pour les 
variables ayant un grand nombre de modalités (par exemple, la CSP). Afin 
de garder l'ensemble de ces ajustements, il est possible d'enregistrer la base 
de données associée au réseau avec les différents traitements subis (discré- 
tisations, filtrages ...). 

En tant que laboratoire d'étude de réseaux bayésiens, BayesiaLab offre 
un très large choix dans les algorithmes à utiliser pour exploiter ces don- 
nées. Il propose : 

• La prise en compte de la connaissance experte exprimée sous la forme 
d'un graphe initial et d'un nombre de cas équivalents, des indices 
temporels des variables (pas d'ajout d'arc entre du futur vers le passé), 
des contraintes définies sur les noeuds et les classes. 

• Une gestion rigoureuse des valeurs manquantes. 

• Une fonction de stratification, ainsi que la prise en compte d'une va- 
riable de pondération (coefficient de redressement). 

• Une complexité structurelle modifiable (jouant le rôle de seuil de si- 
gnificativité). 

• Un apprentissage des paramètres (tables de probabilités). 

• La découverte d'associations pour mettre en évidence l'ensemble des 
relations probabilistes directes présentes dans les données. 

La recherche commence généralement par un graphe non connecté, 
mais il est également possible de commencer à partir d'une structure 
initiale (fournie par un expert ou résultant d'un précédent appren- 
tissage). Sauf s'ils sont fixés par l'expert, les arcs pourront alors être 
remis en cause lors de l'apprentissage. Cinq algorithmes sont propo- 
sés : arbre de recouvrement maximal, deux algorithmes de recherche 
dans les classes d'équivalence, une recherche Taboo dans l'espace des 
RB et une recherche Taboo dans l'espace des ordres de nœuds. 

• La caractérisation probabiliste d'un nœud cible (apprentissage entiè- 
rement focalisé sur ce nœud cible). Six algorithmes sont proposés : 
naïf augmenté ou non, couverture de Markov augmentée ou non, En- 
fants&Epouses, et couverture de Markov augmentée minimale). 
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• Un apprentissage semi-supervisé visant à rechercher dépendances 
probabilistes directes du nœud cible avec des nœuds proches, 

• Le clustering des individus pour la création d'une variable latente 
(c'est-à-dire sans données correspondant dans la base) synthétisant 
les variables connectées (nombre de modalités spécifié a priori ou re- 
cherché automatiquement). 

• Le clustering des variables pour regrouper les variables proches sé- 
mantiquement (visualisation dynamique des groupes avec la couleur 
des nœuds et un dendrogramme). 

• Le clustering multiple appliquant un clustering des individus sur 
chaque concept identifié par le clustering de variables (synthèse d'une 
nouvelle variable par concept, création d'un nouveau réseau avec les 
variables originales et les nouvelles variables latentes, création de la 
base de données correspondant). 

• Des outils de validation pour l'évaluation des modèles obtenus (ma- 
trice de confusion, courbe de lift, courbe de gains, courbe Roc, rap- 
port d'analyse de la pureté du clustering et cartographie des clusters 
obtenus). 


C.2.4 Exploitation 

Le logiciel gère deux types d'inférence : exacte (basée sur l'arbre de jonc- 
tion) et une inférence approchée lorsque les réseaux sont de complexité 
trop grande. L'approximation peut se faire soit par échantillonnage sto- 
chastique ( Likelihood Weighting), soit par inférence exacte sur un graphe 
simplifié (suppression des relations les plus faibles et causant la plus grande 
complexité). Pour les réseaux de grande taille, un mode d'inférence exacte 
basé sur les requêtes est également disponible (relevance reasoning). Ce 
mode permet, par l'analyse des observations et des nœuds requêtés, de 
construire l'arbre de jonction minimal. 

L'exploitation nécessite la possibilité d'insérer des observations dans le 
réseau. BayesiaLab permet d'insérer des évidences certaines positives ou 
négatives (ce nœud a cette valeur ou n'a pas cette valeur), des vraisem- 
blances (une valeur entre 0 et 100 sur chaque modalité), et des distributions 
de probabilités. 

BayesiaLab exploite le réseau bayésien en interactif (à partir d'observa- 
tions entrées manuellement à partir des « moniteurs » ou automatiquement 
à partir d'un fichier d'observations) ou en « batch » (effectuer une série 
d'évaluations de variables à partir d'un fichier d'observations). 

® En mode interactif : 

• L'affichage des probabilités marginales ainsi que l'insertion des ob- 
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FiG. C.3 Exploitation d'un réseau appris par BayesiaLab de manière non supervisée sur 
un questionnaire de satisfaction - Étude de l'impact d'une mauvaise qualité gé- 
nérale sur l'ensemble des facteurs. 


servations se fait à partir des moniteurs. Afin d'évaluer l'impact 
des observations, les moniteurs peuvent indiquer la variation des 
probabilités relativement à la distribution marginale précédente ou 
à une distribution de référence. Il est également possible de mettre 
en évidence les variations maximales positive et négative. 

• La zone supérieure de la fenêtre des moniteurs est réservée à l'affi- 
chage de la probabilité jointe correspondant aux observations cou- 
rantes, au nombre de cas correspondant lorsqu'une base de don- 
nées est associée, à la valeur totale et moyenne lorsque des nœuds 
ont des valeurs numériques associées à leurs modalités. 

• Un coût d'observation peut être associé à chaque nœud, permet- 
tant la génération automatique d'un questionnaire adaptatif centré 
sur une variable cible ou sur une modalité cible (« quelle est la sé- 
quence dynamique de questions à poser pour estimer, au mieux et 
à moindre coût, la valeur de la variable /modalité cible »). Il per- 
met donc directement de transformer un réseau bayésien en outil 
de diagnostic automatique. 

• Il est possible d'associer un fichier d'observations au réseau et de 
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le parcourir interactivement. Les valeurs des variables observables 
sont alors automatiquement observées avec les valeurs décrites dans 
le fichier. 

• Une fonction d'actualisation bayésienne interactive peut également 
exploiter ce fichier d'observations pour mettre à jour les distribu- 
tions de probabilités des variables non observables. 

® En mode batch : 

• Lorsque le réseau possède une variable cible, l'étiquetage hors ligne 
permet de calculer, pour chaque ligne de la base, la valeur pré- 
dite de la cible et la probabilité sur laquelle repose cette prédic- 
tion. Cette même fonction est disponible également dans le cadre 
de l'explication la plus probable. 

• L'inférence hors ligne calcule, pour chaque cas décrit dans la base, 
la distribution de probabilités a posteriori de tous les nœuds décla- 
rés comme non observables. Dans le cas de l'explication la plus 
probable, les distributions de probabilités sont remplacées par les 
vraisemblances . 

• La probabilité jointe hors ligne permet de calculer la probabilité 
jointe de chaque ligne. Les cas atypiques peuvent ainsi être détectés 
rapidement. 

• Il est également possible de générer une base de cas correspondant 
à la distribution de probabilités représentée par le réseau, soit auto- 
matiquement en mémoire et associée au réseau, soit dans un fichier. 

• La fonction d'imputation permet de sauvegarder la base de don- 
nées associée en remplaçant les valeurs manquantes par inférence, 
soit en tirant les valeurs selon la loi a posteriori, soit en choisissant 
les valeurs ayant le maximum de vraisemblance. 


C.2.5 Analyse 

Des outils d'analyse très intéressants et assez innovants sont intégrés 
également dans BayesiaLab. Tous ces outils prennent en compte le contexte 
des observations. 

• Force des arcs. 

On parle ici d'importance de l'arc pour la loi de probabilité exprimée 
par le réseau bayésien. Lors de cette analyse, les arcs sont affichés 
avec une épaisseur directement proportionnelle à leur force. Cette va- 
leur peut également servir à modifier le positionnement automatique 
des nœuds (plus la force est grande, plus les nœuds sont proches). 

• Corrélation de Pearson. 

Les valeurs numériques associées aux modalités des nœuds permettent 
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de calculer, pour chaque arc, le coefficient R de Pearson. Les corréla- 
tions positives sont affichées en bleu, les négatives en rouge, l'épais- 
seur des arcs dépendant de la force de la corrélation. 

• Apport d'information pour le nœud/ modalité cible. 

Ces fonctions calculent pour chaque nœud son apport d'information 
sur le nœud cible ou une de ses modalités. 

• Analyse de sensibilité de la cible. 

Cet outil permet de visualiser, sous forme de « tours de Hanoï », 
l'impact des nœuds sur le nœud cible, c'est-à-dire la plage de varia- 
tion des probabilités de la cible en fonction des différentes valeurs 
des nœuds. 

• Analyse de sensibilité des paramètres. 

Mesure de l'impact de l'incertitude associée aux nœuds « paramètres » 
sur les nœuds cibles. Les nœuds paramètres sont par défaut les nœuds 
racines (c'est-à-dire sans parent), les nœuds cibles étant par défaut les 
nœuds feuilles (c'est-à-dire sans enfant). Le résultat de l'analyse se 
présente sous deux formes : une courbe représentant la fonction de 
répartition des probabilités de chaque modalité, ou un histogramme 
représentant la fonction de densité de probabilités. 

• Explication la plus probable. 

Calcul de la configuration correspondant à la probabilité jointe maxi- 
male. Les moniteurs affichent la vraisemblance que les modalités ap- 
partiennent à cette configuration. La probabilité jointe affichée dans 
la partie supérieure de la zone des moniteurs correspond à la proba- 
bilité jointe de cette explication la plus probable. 

• Édition de rapports complets pour chaque analyse. 

• Visualisation du graphe essentiel. 

Cette visualisation permet une première approche de la causalité dans 
le réseau bayésien. L'outil permet également de choisir l'orientation 
d'un arc (connaissance d'une causalité) et de propager la contrainte 
dans l'ensemble des orientations de la structure avec mise à jour des 
tables de probabilités. 

• Analyse des observations. 

Calcul d'une mesure globale de contradiction des observations et ré- 
partitions des observations en trois groupes : celles confirmant l'ob- 
servation de référence, celles l'infirmant, et les neutres. 

• Optimisation de la modalité cible. 

Recherche des combinaisons d'observations permettant de maximi- 
ser la probabilité a posteriori de la cible (c'est-à-dire maximisation de 
la vraisemblance). Il est également possible de pondérer la vraisem- 
blance par la probabilité jointe des observations (maximisation de Va 
posteriori). Les observations peuvent être stockées en mémoire ou sau- 
vegardées dans un fichier. 
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FlG. C.4 Analyse de réseau bayésien sous BayesiaLab : apport d'information sur une va- 
leur cible du nœud Cluster, sensibilité de la modalité Cluster 1, cartographie des 
10 valeurs du nœud Cluster 


C.2.6 Prise en compte de la dimension temporelle 

BayesiaLab permet de représenter des réseaux bayésiens dynamiques. 

À ce sujet, il propose : 

• une représentation compacte des réseaux bayésiens dynamiques s'ap- 
puyant sur l'hypothèse de Markov, du premier ordre ou supérieure ; 

• un nœud « temps » pour la prise en compte explicite du temps dans 
les équations ; 

• l'association de fichiers d'observations temporelles (observations po- 
sitives ou vraisemblances) ; 

• une simulation temporelle pas à pas ou par période avec édition gra- 
phique des évolutions de probabilités et affichage des utilités (moyenne 
de chacune et somme globale). 


C.2.7 Aide à la décision 

L'utilisation de nœuds de décision et de nœuds d'utilité permet à Baye- 
siaLab de définir des politiques d'actions visant à optimiser l'utilité globale. 
Alors que dans le cas des réseaux bayésiens statiques, la politique obtenue 
par programmation dynamique est optimale, l'apprentissage par renforce- 
ment utilisé dans le cas des réseaux dynamiques ne permet pas de le ga- 
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rantir. Les politiques sont directement lisibles dans les tables de qualités 
associées aux noeuds de décision. 


C.2.8 Compléments 

Pour faciliter le déploiement des réseaux bayésiens possédant un nœud 
cible, BayesiaLab possède des modules d'export de la couverture de Mar- 
kov de cette cible : génération de macros SAS pour les applications de sco- 
ring visant des millions d'individus, génération de codes PHP et JavaScript 
pour des applications Web interactives. 

Bayesia propose également des APIs 1 en langage Java permettant de cons- 
truire des réseaux bayésiens et de faire de l'inférence sur ces réseaux dans 
des logiciels tiers. 

Ces APIs sont d'ailleurs exploitées par Bayesia Market Simulator, un 
logiciel permettant de faire du trade-off. Cet outil calcule les parts de mar- 
ché espérées pour de nouvelles offres dans un contexte concurrentiel, en 
utilisant un réseau bayésien modélisant le choix des offres en fonction des 
caractéristiques des individus (réseaux appris par BayesiaLab sur des don- 
nées d'enquêtes). 

Bayesia propose également une suite logicielle d'aide au diagnostic et 
au dépannage des systèmes techniques. Cette suite logicielle est principa- 
lement composée de BEST Author pour la modélisation hiérarchique fonc- 
tionnelle des systèmes, de BEST Decision Tree pour la modélisation de la 
connaissance procédurale, de BEST Troubleshooter pour le diagnostic, de 
BEST Reporting pour le suivi d'activité, et de BEST Data Server pour la 
centralisation et la gestion des informations persistantes. 


C.2.9 Conclusion 

Bien que dernier arrivé sur le scène des logiciels de manipulation de 
réseaux bayésiens, BayesiaLab a beaucoup d'atouts et se démarque par des 
fonctionnalités originales et une intégration poussée de l'ensemble du pro- 
cessus, de la modélisation à l'utilisation. En tant que laboratoire de mo- 
délisation, d'apprentissage et d'analyse de réseaux bayésiens, BayesiaLab 
semble bien fournir l'un des environnements les plus complets et les plus 
professionnels du marché. 


Application Programming Interface : utilisation de l'outil comme composant logiciel. 
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C.3 Hugin 

C.3.1 Présentation 

Hugin est un outil de construction de réseaux bayésiens, probablement 
le plus connu et le plus utilisé commercialement ( http : / /www . hugin . com 
Cet outil présente les fonctions principales suivantes : 

• construction de bases de connaissance fondées sur des réseaux bayé- 
siens ou des diagrammes d'influence ; 

• développement de réseaux bayésiens orientés objets ; 

• apprentissage de structure et de paramètres. 

Il est fourni sous forme d'un environnement graphique (Hugin Explo- 
rer), et d'un environnement de développement (Hugin Developer) permet- 
tant de piloter l'ensemble des fonctions de définition, d'inférence et d'ap- 
prentissage à partir d'une application Java, C ou Visual Basic. 

La société danoise Hugin Expert A /S, qui édite ce logiciel, a été créée 
en 1989 et est basée à Aalborg au Danemark. La société a été créée après 
un projet ESPRIT, qui avait pour but de développer des systèmes experts 
de diagnostic dans le domaine médical. Hugin s'est ensuite développée 
progressivement, toujours en relation étroite avec l'université d'Aalborg. 
Hewlett Packard a investi dans Hugin en 1998, en prenant 45 % des parts 
de la société. 


C.3.2 Construction des modèles 

La création de réseaux bayésiens dans Hugin Explorer s'effectue avec 
un environnement graphique simple et assez intuitif. Cette interface per- 
met de gérer plusieurs types de nœuds : 

• nœud discret ; 

• nœud continu ; 

• nœud d'utilité ; 

• nœud de décision. 

La création de modèles présente cependant certaines contraintes : 

• Hugin ne permet de gérer que des nœuds continus gaussiens. 

• Un nœud continu ne peut pas être parent d'un nœud discret. 

• On ne peut pas utiliser dans le même modèle des nœuds continus et 
des nœuds d'utilité ou de décision. 

® Réseaux bayésiens à variables discrètes 

La construction d'un réseau bayésien standard à variables discrètes 
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s'effectue de façon très simple en définissant graphiquement l'archi- 
tecture du réseau et les tables de probabilités. 



La création de mo- 
dèles avec Hugin 
s’effectue grâce à un 
éditeur graphique , 
qui permet de définir 
à la fois l’architecture 
du modèle et les 
tables de probabilités 
d’un nœud condi- 
tionnellement à ses 
parents. 


FlG. C.5 Création de modèles avec Hugin 


La saisie des tables de probabilités peut être fastidieuse, notamment 
pour un nœud avec beaucoup de parents. Dans ce cas, et si cela est 
possible, Hugin permet de définir ce nœud comme une expression, 
arithmétique ou logique, de l'état de ses parents. 

® Réseaux bayésiens continus 

Hugin permet d'utiliser des nœuds continus dans un réseau bayé- 
sien. Lorsqu'un nœud discret est parent d'un nœud continu, la va- 
riance et la moyenne de ce dernier doivent être définies selon les états 
du nœud continu. Lorsqu'un nœud continu est parent d'un autre 
nœud continu, la distribution de ce dernier est égale à la somme de 
deux lois normales, l'une définie a priori, et l'autre égale à la distribu- 
tion du nœud parent. 

© Diagrammes d'influence 

Un diagramme d'influence est, par définition, un réseau bayésien au- 
quel on a ajouté des nœuds de décision et d'utilité. L'exemple ci- 
dessus décrit la modélisation d'une prise de décision dans le domaine 
du forage pétrolier. 

Un ingénieur doit choisir ou non de creuser à un certain point. Il ne 
connaît pas la quantité de pétrole éventuellement présente. Le puits 
peut être sec, humide, ou imbibé de pétrole. 
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-.Hugin Lite 6.3 


Les nœuds continus 
dans Hugin sont 
des distributions 
gaussiennes ou 
des mixtures de 
distributions gaus- 
siennes. Un nœud 
discret ou un nœud 
continu peuvent être 
parents de nœuds 
continus, mais un 
nœud continu ne 
peut pas être parent 
d’un nœud discret. 



FlG. C.6 Modèles continus avec Hugin 


Pour avoir une information complémentaire, l'ingénieur peut décider 
de faire une mesure d'écho sismique sur ce puits. Le résultat de ce test 
indiquera que la structure du terrain est fermée (ce qui est un bon signe 
de présence de pétrole), ouverte (moyen), ou sans structure (présence 
de pétrole improbable). 

La structure des coûts est la suivante. Le test sismique coûte 10 000 $, 
creuser coûte 70 000 $. La recette attendue si le puits est imbibé est de 
270 000 $, de 120 000 $ s'il est humide, et de 0 $ s'il est sec. Enfin, bien 
entendu, si l'ingénieur décide de ne pas creuser, la recette attendue 
est nulle. 

Hugin permet de représenter ce problème grâce au diagramme d'in- 
fluence de la figure C.7 ci-après. La première décision est d'effectuer 
ou non le test sismique. Si on décide de faire ce test, le résultat obtenu 
sera fonction de la configuration réelle du puits, avec une certaine in- 
certitude. À partir du résultat du test sismique, on décidera de creuser 
ou non. 

Le diagramme d'influence permet de guider la décision, car il indique 
l'utilité espérée de chaque décision. Ainsi l'utilité a priori de faire le 
test sismique est légèrement supérieure (22.5) à celle de ne pas le faire 
( 20 ). 
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Ce diagramme d’in- 
fluence comporte 
deux décisions 
effectuer ou non un 
test sismique, et 
procéder ou non au 
forage. En fonction 
de ces décisions, et 
de la réalité du puits, 
une utilité globale (ici 
le bénéfice attendu) 
est mesurée. 


FlG. C .7 Diagrammes d'influence avec Hugin 


C.3.3 Inférence 

L'inférence dans Hugin s'effectue grâce au calcul d'un arbre de jonc- 
tion sur le réseau. Le mode le plus simple d'inférence consiste à entrer des 
observations dans le réseau, simplement en cliquant sur la valeur observée. 

Les copies d'écran de la figure C.8 ci-après montrent l'utilisation de l'in- 
férence pour l'exemple de l'arrosage du jardin étudié dans les premières 
pages du livre. Dans l'écran de gauche, aucune observation n'a été effec- 
tuée. Dans l'écran de droite, l'observation « l'herbe du jardin est mouillée » 
a été effectuée, et les probabilités des autres nœuds sont révisées. 

Hugin permet également de saisir des observations partielles, grâce à 
la fonction de saisie de vraisemblance. Dans l'exemple du forage ci-dessus, 
on peut disposer de l'information selon laquelle le puits n'est pas sec : il est 
donc nécessairement humide ou imbibé. Cette information peut être entrée 
dans Hugin en indiquant que la vraisemblance de l'observation « Le puits 
est sec » est nulle. 

On remarque alors que, sauf information complémentaire, les probabi- 
lités des deux autres événements restent dans le même rapport qu'initiale- 
ment. L'utilité de réaliser le test sismique devient alors inférieure à celle de 
ne pas le faire : en effet, le puits étant certainement humide ou imbibé, le 
forage aura toujours un résultat bénéficiaire, et le test devient inutile. 
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FlG. C.8 Utilisation de Hugin pour l'inférence 


Le type d'inférence standard, c'est-à-dire le calcul de la probabilité des 
nœuds non observés conditionnellement aux observations, s'appelle la pro- 
pagation Sum normal dans Hugin, qui offre d'autres modes d'inférences. En 
particulier, la propagation Max normal permet de trouver la configuration du 
réseau la plus probable, ayant effectué certaines observations. 



Linférence dans Hugin peut 
également s’effectuer à partir 
d’observations partielles, comme 
ci-dessus. 



FlG. C.9 Observations partielles dans Hugin 
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C.3.4 Apprentissage 


Hugin permet l'apprentissage de structure à partir des deux algorithmes 
PC et NPC. Cette fonction est présentée comme un assistant, ou wizard, en 
plusieurs étapes : 

• Acquisition des données : choix d'un fichier ou d'une table de base 
de données. 

• Prétraitement des données : sélection des entrées, discrétisation, etc. 

• Contraintes structurelles : ici l'utilisateur peut spécifier manuellement 
les dépendances ou indépendances connues entre les variables. 

• Apprentissage : choix de l'algorithme PC ou NPC. 

• Résolution des incertitudes : l'utilisateur est sollicité ici dans le cas où 
certains liens, ou certaines orientations des liens n'ont pu être établies 
par l'algorithme. 

• Sélection des liens : l'utilisateur peut visualiser la significativité de 
chacun des liens, et sélectionner ceux qui dépassent un certain seuil. 

• Distribution a priori : si une information sur la distribution des don- 
nées est connue, on peut l'indiquer à ce stade, ainsi que le nombre 
d'exemples sur lesquels cette information a été obtenue. 

• Apprentissage EM : c'est la dernière étape, au cours de laquelle les 
tables de probabilités du réseau sont apprises. 



L’une des étapes de l’as- 
sistant d’apprentissage de 
Hugin : la définition des 
contraintes structurelles , 

c’est-à-dire des dépen- 
dances et indépendances 
connues entre les variables. 


FlG. C.10 L'assistant d'apprentissage de structure dans Hugin 
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L'apprentissage de paramètres, c'est-à-dire des tables de probabilités, 
peut s'effectuer à tout moment sur un réseau existant. Deux options existent 
pour cet apprentissage : 

• L'apprentissage séquentiel, aussi appelé adaptation, permet de mo- 
difier la distribution du réseau à partir de chaque exemple observé. 

• L'apprentissage global permet de recalculer les tables de probabilités 
du réseau à partir d'un ensemble d'exemples. 

L'apprentissage global est réalisé par l'algorithme EM. Signalons enfin que 
Hugin peut également être utilisé pour générer des bases de cas à partir 
d'un réseau entièrement défini. 


C.3.5 Compléments 

Une fonctionnalité intéressante de Hugin est la possibilité de gérer des 
réseaux imbriqués, appelés réseaux orientés objet. Il s'agit d'insérer une 
instance d'un réseau déjà créé au sein d'un nouveau réseau, en le représen- 
tant par un seul nœud. 

Hugin offre également une API, c'est-à-dire une interface programmeur, 
complète. Cette API est disponible en C/ C++, Java, et Visual Basic. 

Un langage de représentation de réseaux bayésiens permet également 
de créer des réseaux bayésiens par d'autres biais, pour les charger et les 
manipuler ensuite dans Hugin. 

Un produit dérivé de Hugin, Hugin Advisor, a été créé pour faciliter 
le développement d'applications de diagnostic. Advisor est particulière- 
ment adapté pour les centres d'appels de dépannage, afin de guider les 
opérateurs. Advisor permet en quelque sorte de systématiser l'approche 
des questionnaires adaptatifs qui a été présentée dans l'une des études de 
cas ci-dessus. La séquence de questions posées est optimisée pour aboutir 
le plus rapidement possible (en probabilité) à un diagnostic. 


C.3.6 Conclusion 

Hugin est aujourd'hui l'un des produits les plus robustes et les plus 
simples à utiliser pour construire des réseaux bayésiens. Il dispose d'al- 
gorithmes puissants et est très facile à intégrer dans des applications exis- 
tantes. Même si les autres produits présentés dans cette section sont des 
challengers sérieux, en particulier pour l'apprentissage de structure qui est 
relativement récent dans Hugin, Hugin reste un produit de référence. 
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C.4 Netica 

C.4.1 Présentation 

Développé depuis 1992 et commercialisé depuis 1995 par la société ca- 
nadienne Norsys (http : / /www . norsys . com), basée à Vancouver, le lo- 
giciel de réseaux bayésiens Netica est actuellement l'un des plus diffusés à 
l'échelle mondiale. Netica est utilisé pour le diagnostic, la prévision ou la 
simulation dans les domaines de la finance, de l'environnement, de la mé- 
decine, de l'industrie et dans un grand nombre d'applications nécessitant 
de raisonner en univers incertain. 

Une version gratuite du logiciel, entièrement fonctionnelle, est téléchar- 
geable sur le site Internet de Norsys. Les seules limitations de la version 
gratuite sont que la taille des réseaux bayésiens est limitée à 15 variables 
et que l'apprentissage à partir de données ne peut être effectué que par 
échantillons de 1 000 cas à la fois. Norsys propose des tarifs réduits pour 
les étudiants et enseignants. 

C.4.2 Construction des modèles 

La création d'un réseau bayésien ou d'un diagramme d'influence sous 
Netica s'effectue, comme avec la majorité des logiciels, par l'intermédiaire 
d'une interface graphique (figure C.ll ci-après). L'utilisateur crée et dis- 
pose les nœuds correspondant aux variables aléatoires, de décision ou d'uti- 
lité du modèle, puis précise la structure du réseau en traçant les liens entre 
variables. 

Dans un deuxième temps, les relations entre variables sont décrites en 
saisissant numériquement les tables de probabilités conditionnelles, en uti- 
lisant des équations ou encore en spécifiant les paramètres de lois de proba- 
bilités prédéfinies. L'interface de Netica permet d'introduire des variables 
continues, que l'on définit par des équations ou en utilisant les lois de pro- 
babilités continues classiques. Cependant, les algorithmes internes de Ne- 
tica ne gèrent en réalité que les variables aléatoires discrètes. Il est donc né- 
cessaire de discrétiser l'ensemble des valeurs possibles des variables conti- 
nues. En fonction de la finesse de la discrétisation, une certaine imprécision 
entache ainsi la précision des calculs (notamment parce que les tables de 
probabilités sont remplies par tirages aléatoires). Il faut cependant garder 
à l'esprit que les algorithmes permettant de gérer des variables continues 
dans les réseaux bayésiens ne s'appliquent que sous certaines conditions 
(distributions normales, linéarité des relations entre variables). Par consé- 
quent, l'utilisation de tels algorithmes implique souvent des approxima- 
tions qui introduisent également de l'imprécision. Le choix de l'approxi- 
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FlG. C.ll Netica : exemple de diagramme d'influence comprenant deux variables aléa- 
toires, une variable de décision et une fonction d'utilité 


mation la plus convenable dépend naturellement de l'application. 

Les novices apprécient la sobriété et la simplicité de l'interface gra- 
phique qui permettent une prise en main rapide du logiciel. Pour qui dis- 
pose de notions élémentaires de probabilités, l'autoformation à l'outil s'ef- 
fectue généralement en quelques heures. Les utilisateurs plus avancés dé- 
couvrent, par la pratique, les nombreux raccourcis et astuces de saisies qui 
simplifient remarquablement la phase de création des modèles. 


C.4.3 Inférence 

Lorsque la saisie du modèle est terminée, l'utilisateur compile le réseau 
bayésien, c'est-à-dire qu'il ordonne à Netica de transformer le modèle en 
un arbre de jonction grâce auquel l'inférence probabiliste devient possible. 
L'arbre de jonction restera invisible pour l'utilisateur, même si sa structure 
peut être imprimée si nécessaire. 

L'utilisateur spécifie à l'aide de l'interface graphique une ou plusieurs 
observations et visualise immédiatement leur impact sur les autres variables, 
calculé par l'outil en propageant les observations à travers l'arbre de jonc- 
tion (l'algorithme utilisé est rapide et mathématiquement exact). Les obser- 
vations peuvent prendre différentes formes, telles que « la variable X a une 
certaine valeur », « la variable Y n'a pas une certaine valeur », s'exprimer 
à l'aide de vraisemblances probabilistes, etc. 

Netica peut inverser des liens, absorber des nœuds, en gardant bien sûr 
inchangée la loi de probabilité globale du réseau bayésien. Ces opérations 
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sont utiles pour transformer un réseau bayésien lors de sa construction, ou 
pour explorer les relations entre les variables d'un modèle construit par 
apprentissage à partir de données. Elles peuvent également être utilisées 
pour l'inférence probabiliste, mais cela ne présente pas d'intérêt, l'arbre de 
jonction étant plus efficace. 

C.4.4 Apprentissage 

Netica permet l'apprentissage de tables de probabilités à partir de don- 
nées, au moyen d'un algorithme d'apprentissage bayésien. L'ensemble des 
tables de probabilités d'un réseau bayésien peuvent donc être spécifiées en 
introduisant une base de données ou un échantillon de cas, de taille suffi- 
samment grande. Netica reconnaît les fichiers CSV, les fichiers texte délimi- 
tés par des tabulations, ainsi que les bases de données compatibles ODBC. 

Si le nombre de données manquantes est important, Netica utilise soit 
l'algorithme de maximisation de l'espérance, soit une méthode de descente 
de gradient (semblable à la descente de gradient des réseaux neuronaux). 
Dans certaines applications, ces algorithmes se révèlent efficaces pour ap- 
prendre des relations avec des variables pour lesquelles il n'existe pas de 
données (nœuds cachés ou variables latentes). 

Un algorithme d'apprentissage de structure sera prochainement dispo- 
nible dans le logiciel. 

C.4.5 Autres fonctionnalités 

Netica dispose de nombreuses autres fonctionnalités, dont certaines ne 
sont offertes que par ce logiciel : 

• études de sensibilité permettant de mesurer l'influence d'une variable 
sur une autre (information mutuelle, réduction de variance, etc.) ; 

• traitement d'un fichier de cas (par exemple pour faire automatique- 
ment de l'inférence sur chaque cas) avec création d'un fichier de ré- 
sultats ; 

• utilisation d'un fichier de cas pour évaluer les performances (en diag- 
nostic ou en prévision) d'un réseau bayésien, avec des mesures du 
type taux d'erreur, scoring logarithmique et quadratique (Brier), courbe 
ROC, matrice de confusion ; 

• expansion temporelle d'un réseau bayésien ; 

• fonction diff, pour visualiser les différences entre deux réseaux bayé- 
siens ; 

• cryptage d'un réseau bayésien, permettant de livrer à un utilisateur 
final une application sans que celui-ci n'ait accès à la structure interne 
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du modèle ; 

• possibilité d'introduire plusieurs variables de décision et d'utilité dans 
un diagramme d'influence, obtention de la solution maximisant l'es- 
pérance de l'utilité et visualisation de l'espérance de l'utilité de chaque 
décision possible ; 

• interface graphique proposant de multiples représentations graphiques 
des nœuds, l'introduction de commentaires, la création de liens non 
rectilignes (pour améliorer la lisibilité), le copier-coller vers d'autres 
applications ; 

• très nombreuses fonctions mathématiques et lois de probabilité pré- 
définies (dont certaines spécifiques aux réseaux bayésiens, comme le 
« ou », le « max » et la somme bruités noisy). 


De nouvelles fonctions ont été introduites récemment : 

• génération de graphiques SVG, pour une meilleure qualité de publi- 
cation papier ou Internet ; 

• discrétisation automatique de variables continues à partir d'un fichier 
de cas ; 

• coloriage des nœuds ; 

• nouveau format des fichiers .net a (format binaire plus compact et 
plus rapide que l'ancien format texte . dne, qui demeure néanmoins 
opérationnel) ; 

• possibilité de masquer les informations confidentielles d'un réseau 
bayésien afin de protéger la propriété intellectuelle ; 

• définition et gestion d'ensembles de nœuds. 

La qualité de la documentation de Netica est remarquable. L'aide en 
ligne du logiciel, en particulier, est très complète et pédagogique. 

L'API de Netica, disponible sur le site de Norsys, permet aux dévelop- 
peurs d'intégrer les réseaux bayésiens et le raisonnement probabiliste dans 
leurs propres logiciels. Les langages C, C++, Java et Visual Basic sont recon- 
nus directement. D'autres langages (Prolog, LISP ou FORTRAN) à même 
de s'interfacer avec les premiers cités peuvent également être utilisés. L'API 
de Netica est entièrement compatible avec l'interface graphique : un mo- 
dèle construit avec TAPI peut être édité avec l'interface graphique, et réci- 
proquement. Il est même possible d'utiliser TAPI et l'interface graphique 
simultanément. Ainsi, un utilisateur final peut éditer graphiquement un 
réseau bayésien, tandis que le programmeur débogue l'application, ce qui 
facilite le développement. 
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C.4.6 Conclusion 

D'une conception simple, et doté d'une interface graphique conviviale, 
Netica est assurément un excellent logiciel pour qui souhaite s'initier rapi- 
dement aux réseaux bayésiens. Les experts apprécient également sa puis- 
sance et la facilité avec laquelle l'outil permet de déployer des solutions 
opérationnelles à base de réseaux bayésiens. 

Le produit se prête remarquablement aux applications industrielles des 
réseaux bayésiens, et notamment celles dans lesquelles la connaissance dé- 
crite est essentiellement d'origine experte. La représentation graphique des 
modèles par Netica, simple et expressive, constitue un support de brain- 
storming très efficace. La rapidité de la compilation et de l'inférence, ainsi 
que la visualisation des lois de probabilités par des histogrammes contri- 
buent également à faciliter la validation du modèle par les experts. 

En raison de la large diffusion du logiciel, de nombreuses organisations 
à travers le monde proposent des services et des ressources liées à Netica : 
formations, tutoriels, algorithmes d'apprentissage de structure, interface de 
programmation en LISP, etc. 


C.5 

Elvira 

C.5.1 

Introduction 


Le logiciel de construction et d'utilisation de modèles probabilistes gra- 
phiques Elvira est développé par les universités d'Almeria, du Pays Basque, 
de Castille-La Manche, de Grenade et par l'université nationale d'ensei- 
gnement à distance (UNED). La création d'Elvira s'est effectuée dans le 
cadre de deux projets de recherche soutenus par le ministère espagnol de 
la science et de la technologie : ELVIRA, de 1997 à 2001 et ELVIRA I, de 
2001 à 2004. 

Plus précisément, ces projets ont donné lieu à une mise en commun de 
moyens par différentes équipes de recherche qui auparavant travaillaient 
isolément sur plusieurs aspects des modèles probabilistes graphiques comme 
l'apprentissage, la propagation, ou les diagrammes d'influence. Il était fré- 
quent qu'une équipe soit obligée de développer un outil pour tester un 
algorithme particulier. Dans le but d'améliorer ce fonctionnement, les dif- 
férentes équipes ont dans un premier temps envisagé d'utiliser l'un des 
logiciels du marché, mais ont renoncé à cette possibilité, considérant que 
ces logiciels n'offraient pas suffisamment de flexibilité pour une activité de 
recherche. 
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Bien évidemment, les logiciels commerciaux ne permettaient pas de 
faire évoluer le code, et les logiciels libres ont été considérés comme trop 
restreints dans leur fonctionnalités ou nécessitant trop de travail pour les 
adapter. 



FlG. C.12 Le réseau bayésien Asia, saisi sous le logiciel Elvira 


Elvira est doté d'une interface graphique conviviale et peut être utilisé 
dans le cadre d'applications opérationnelles. Cependant, sa vocation pre- 
mière est bien d'être un outil de recherche, qui offre la possibilité d'implé- 
menter et de tester de nouveaux algorithmes, qu'il s'agisse d'apprentissage, 
de propagation, ou de décision. 

Typiquement, il est possible dans Elvira de faire effectuer la même tâche 
par plusieurs algorithmes, ce qui permet de comparer leurs performances 
respectives. On peut citer à titre d'exemple les nombreuses méthodes de 
calcul approché des réseaux bayésiens dont dispose l'outil. Les program- 
meurs d'Elvira font évoluer le logiciel de manière continue, ce qui peut 
apparaître comme une faiblesse, mais se révèle nécessaire pour les besoins 
de recherche des différents participants. 
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Écrit en Java, Elvira fonctionne sous Unix, Linux et Windows. Elvira est 
un projet ouvert. L'environnement et tous les codes sources sont librement 
téléchargeables sur Internet, à l'adresse : leo . ugr . es/~elvira 

C.5.2 Le format Elvira 

La définition du format Elvira a constitué la toute première étape du 
projet. Ce format permet de représenter d'une manière intuitive et à l'aide 
de fichiers ASCII (d'extension . elv) les réseaux bayésiens et les diagram- 
mes d'influence, mais aussi les bases de données, les ensembles d'observa- 
tion, ou les résultats d'expériences. 

La figure C.13 montre à titre d'exemple le réseau bayésien de l'exer- 
cice 3.1.1 page 42 au format Elvira. 


// Bayesian Network 

relevance = 7.0; 

// Elvira format 

purpose = " " ; 

bnet "reseau simple" { 

num-states = 2 ; 

// Network Properties 

States = ("présent" "absent") ; 

kindofgraph = "directed" ; 

} 

visualprecision = "0.00"; 


version = 1.0; 

// Links of the associated graph 

default node States = (présent , 

link SD; 

absent) ; 


// Variables 

//Network Relationships : 
relation S { 

node S (f inite-states) { 

comment = " " ; 

title = "Sexe" ; 

kind-of-relation = potential ; 

kind-of-node = chance ; 

deterministic=false ; 

type-of-variable = f inite-states ; 

values= table (0.5 0.5 ) ; 

pos_x =136 ; 

} 

pos_y =82 ; 


relevance = 7.0; 

relation D S { 

purpose = " " ; 

comment = " " ; 

num-states = 2 ; 

kind-of-relation = potential ; 

States = ("femme" "homme") ; 

deterministic=false ; 

} 

values= 

node D (finite-states) { 

table (0.0050 0.08 0.995 0.92 ) ; 

} 

title = "Daltonisme" ; 


kind-of-node = chance ; 

} 

type-of-variable = finite-states ; 
pos_x =322 ; 
pos_y =103 ; 



LlG. C.13 Exemple de réseau bayésien au format Ehnra 


C.5.3 Interface graphique 

L'interface graphique d'Elvira ressemble à celle d'autres logiciels. Elle 
fonctionne en trois modes : édition, apprentissage ou inférence. En mode 
édition, l'utilisateur crée le réseau bayésien ou le diagramme d'influence et 
dispose de fonctions habituelles comme Undo-Redo (annulation ou répéti- 
tion de la dernière action), un zoom, etc. Le mode apprentissage est utilisé 
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pour construire des réseaux bayésiens à partir de bases de données. En 
mode inférence, plusieurs possibilités particulièrement intéressantes sont 
offertes : par exemple, Elvira peut colorer les liens ou leur donner des 
épaisseurs variables en fonction de certaines considérations sur la nature 
des liens, ce qui donne une vision qualitative des liens entre variables. El- 
vira est capable de détecter automatiquement les nœuds importants d'un 
réseau bayésien et de leur appliquer un mode d'affichage détaillé, com- 
prenant des histogrammes représentant les lois de probabilité de chaque 
variable. Il est possible d'afficher simultanément plusieurs lois de probabi- 
lité pour une même variable, par exemple la loi marginale et la loi condi- 
tionnelle à l'observation d'un cas. Elvira peut également colorier les nœuds 
pour montrer qualitativement l'impact d'une observation. 



FlG. C.14 Fonctions d' apprentissage du logiciel Elvira 


C.5.4 Principales fonctionnalités 

Plusieurs méthodes de propagation, exactes ou approchées, sont implé- 
mentées dans Elvira. Il est possible d'effectuer une inférence directement à 
partir de la ligne de commande ou via l'interface graphique. La figure C.12 
page 383 est une copie d'écran du logiciel qui montre une inférence dans 
le réseau bayésien Asia, à partir de deux observations (le patient est « non- 
fumeur » ; le résultat de sa radiographie est « anormal »). 

Elvira est doté d'algorithmes d'apprentissage de paramètres et de struc- 
ture. Les algorithmes d'apprentissage de structure sont fondés sur les tests 
d'indépendance conditionnelle et sur les fonctions de scoring : algorithme 
PC, K2, etc. La figure C.14 montre un choix d'algorithmes qui s'offre à l'uti- 
lisateur lorsque celui-ci importe dans Elvira une base d'exemples. Elvira est 
capable de traiter des réseaux bayésiens comportant des variables conti- 
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FlG. C.15 Exemple de réseau bayésien comportant des variables continues (logiciel El- 
vira) 


nues (figure C.15 ). Cependant, les fonctionnalités d'apprentissage sont ré- 
servées aux réseaux bayésiens à variables discrètes uniquement. 
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